Till innehåll på sidan
Till KTH:s startsida

Camera Relocalization through Distribution Modeling

Tid: To 2025-12-11 kl 14.00

Plats: D3, Lindstedtsvägen 5, Stockholm

Videolänk: https://kth-se.zoom.us/j/68470117111

Språk: Engelska

Ämnesområde: Datalogi

Respondent: Fereidoon Zangeneh , Robotik, perception och lärande, RPL, Univrses AB, Stockholm, Sweden

Opponent: Associate Professor Juho Kannala, Aalto University, Finland

Handledare: Professor Patric Jensfelt, Robotik, perception och lärande, RPL

Exportera till kalender

QC 20251117

Abstract

Omlokalisering är en nyckelkomponent i robotnavigering: för att kunna röra sig framgångsrikt inom en miljö måste en robot känna till sin position i förhållande till den miljön. Kameror är kostnadseffektiva sensorer som möjliggör omlokalisering genom att jämföra visuella observationer med en modell av scenen. Därför har kameraomlokalisering, som också hittar tillämpningar inom förstärkt verklighet, länge varit ett forskningsämne, vilket har lett till noggrant utformade pipelines för korrekt kameraposeuppskattning. Nyligen har ett paradigmskifte sett explicita modeller av scenen ersättas av implicita, där scenen är kodad i vikterna av neurala nätverk. Detta skifte förenklar omlokaliseringspipelines men lämnar en grundläggande utmaning öppen: scener med repetitiva strukturer producerar ofta tvetydiga observationer, vilket innebär att samma visuella input kan motsvara flera distinkta kamerapositioner. Denna avhandling tar upp denna utmaning, med särskilt fokus på implicita omlokaliseringsmetoder. Den granskar kritiskt antagandena bakom befintliga paradigm som Absolute Pose Regression (APR) och Scene Coordinate Regression (SCR), som vanligtvis förutsätter en unik lösning. Som sitt centrala bidrag föreslår avhandlingen att modellera den fullständiga fördelningen av möjliga lösningar, som kan formas godtyckligt, snarare än att försöka hitta en enda bästa uppskattning. För detta ändamål föreslogs att man skulle utnyttja Conditional Variational Autoencoders (C-VAEs) som generativa modeller som kan representera både fördelningar över poser och fördelningar över punkter. Dessutom ger sannolikhetsuppskattning inom detta ramverk ett principiellt sätt att koppla konfidensmått till förutsägelser. Dessa bidrag, tillsammans med de föreslagna tillämpningarna och riktningarna för framtida arbete, lägger en grund för att förenkla omlokaliseringspipelines genom att mer effektivt hantera tvetydighet i observationer.

urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-372920