Beyond Standard Assumptions in Autonomous Driving Perception
Tid: Fr 2026-04-17 kl 09.00
Plats: Kollegiesalen, Brinellvägen 8, Stockholm
Språk: Engelska
Ämnesområde: Datalogi
Respondent: Ajinkya Khoche , Robotik, perception och lärande, Traton AB
Opponent: Assistant Professor Holger Caesar, Intelligent Vehicles Lab, TU Delft; Professor Abhinav Valada, Albert-Ludwigs-Universität Freiburg; Adjunct Associate Professor Christoffer Petersson, Chalmers University; Research Fellow Stephany Berrio Perez, Australian Centre for Field Robotics, University of Sydney
Handledare: Professor Patric Jensfelt, Robotik, perception och lärande; Dr Sina Sharif Mansouri, Traton AB
Zoom link: https://kth-se.zoom.us/s/68091974260
Abstract
Uppfattning om autonom körning utvecklas och utvärderas vanligtvis under en uppsättning möjliggörande antaganden: att multisensorbevis är fysiskt konsistenta på bildnivå, att geometrin är tillräckligt tät för att stödja tillförlitlig slutsats om andra trafikdeltagare och den omgivande miljön, och att inlärning kan förlita sig på antingen rikliga mänskliga etiketter eller självövervakade mål som härrör från sensorströmmen. Denna avhandling undersöker vad som förblir genomförbart när dessa antaganden inte längre gäller, och utvecklar metoder och designprinciper för uppfattning under asynkron avkänning, långdistansgleshet och svag eller opålitlig övervakning.
Vi studerar först fysisk inkonsekvens i multisensordata. Vi visar att rullande och asynkron förvärv, rörelse under aggregering och annoteringsmetoder som implicit antar temporal koherens kan göra uppfattningsproblemet felaktigt ställt innan något representationsval görs. Vi behandlar därför dataförberedelse, rörelsekompensation och annoteringskonsistens som integrerade delar av uppfattningsprocessen, eftersom fel i detta skede kan fortplanta sig direkt till annotering, träning och utvärdering.
Vi undersöker sedan representation under långdistansgleshet. Vi visar att prestanda på lång räckvidd begränsas inte bara av modellens kapacitet, utan också av de representationer som används för att koda och exponera tvetydiga bevis. I synnerhet kan objektcentrerade utdata och täta interna representationer tvinga fram för tidigt engagemang när tillgängliga bevis kollapsar på avstånd. För att studera detta presenterar vi resultat om 3D-objektdetektering på lång räckvidd och gles scenflöde på lång räckvidd, vilket visar både gränserna för objektcentrerad perception under svag observerbarhet och värdet av rörelsecentrerad uppskattning när avståndet ökar.
Slutligen studerar vi inlärningssignaler när etiketter och geometri-härledd självövervakning blir opålitliga. Vi visar att rörelseövervakning kan återställas genom att importera fysiskt grundade begränsningar från komplementära modaliteter, med hjälp av radar-Doppler för att vägleda LiDAR-scenflödesinlärning. Vi visar vidare att skalbar semantisk övervakning kan erhållas från grundläggande modellprior genom läroplanbaserad syntetisk-till-real-anpassning, som förankrar språkanpassade representationer till verkliga LiDAR-egenskaper.