Till innehåll på sidan
Till KTH:s startsida Till KTH:s startsida

Learning from Interactions

Forward and Inverse Decision-Making for Autonomous Dynamical Systems

Tid: To 2023-11-23 kl 10.00

Plats: Kollegiesalen, Brinellvägen 8, Stockholm

Videolänk: https://kth-se.zoom.us/j/62028765716

Språk: Engelska

Ämnesområde: Elektro- och systemteknik

Respondent: Inês de Miranda de Matos Lourenço , Reglerteknik

Opponent: Professor Sandra Hirche, Technical University of Munich, Munich, Germany

Handledare: Professor Bo Wahlberg, Reglerteknik

Exportera till kalender

QC 20231101

Abstract

Beslutsfattande är en komplex process där tillgänglig information används för att skapa lösningar på givna problem. Denna process involverar bland annat bildande av preferenser och uppfattningar, samt val av handlingsstrategier bland flera olika alternativ. I den här avhandlingen utforskar vi mekanismerna som skapar beteende (det direkta problemet) och hur deras karaktär kan förklara observerade handlingar (inversproblemet). Båda dessa problem spelar en avgörande roll inom dagens forskning för utvecklandet av avancerade autonoma agenter, vilka utgör byggstenarna för ett smart samhälle som tar hänsyn till komplexitet, risk och osäkerhet. Detta arbete utforskar olika aspekter av den autonoma beslutsfattande processen där agenter lär sig genom att interagera med andra agenter och den miljö som omger dem. Vi tar oss en grundläggande problem inom beteendemodellering samt parameterskattning i form av uppfattningar, sannolikhetsfördelningar och belöningsfunktioner. Slutligen studerar vi även interaktioner med andra agenter, vilket lägger grunden för ett komplett och integrerat ramverk för beslutsfattande och lärande.

I avhandlingens första del modellerar vi både det direkta problemet, där beslutsfattare bildar uppfattningar om sin omvärld, och inversproblemet, där dessa uppfattningar skattas utifrån agentens handlingar. Vi använder en dold Markov-modell för att filtrera privat information och skapa den privata uppfattningen (a posteriori-fördelning) om omvärldens tillstånd. Förmågan att skatta privata uppskattningar utgör en grund för att förutspå, och motverka, framtida handlingar. Vi diskuterar hur dessa privata uppfattningar kan skattas utifrån beslutsfattarens handlingar och hur beslutsfattaren kan skydda sina uppfattningar från en motståndare. Vi tillämpar vårt ramverk på ett problem om systemskiftande portföljallokering.

I den andra delen studerar vi framåtriktat beslutsfattande i biologiska system och hur man kan utvinna insikter om deras egenskaper genom att lösa det inversa problemet. Vi fokuserar på tidsuppfattning, nämligen hur människor och djur uppfattar tidsförlopp. Inspirerade av biologiska system, utformar vi också ett beslutsfattande ramverk baserat på förstärkande inlärning som återskapar biologiska tidsmekanismer. Vi visar att en simulerad robot utrustad med vårt ramverk kan uppfatta samma tid som djur, och att vi genom att analysera dess utförda handlingar kan skatta parametrarna för biologiska tidssystem.

I avhandlingens tredje del behandlar vi mästar-lärling situationer, där en expertagent (lärare) hjälper en elevagent utföra uppgifter genom att ingripa i dess beslutsfattande process. Vi föreslår korrigeringsinlärning, där en lärare observerar och modifierar den data som samlas in av elevagenten, med syftet att förbättra elevagentens skattningsprocess. Vi presenterar resultat från ett batch-scenario med ändlig samplingsmängd. Vi generaliserar även ramverket med hjälp av verktyg från optimal transport för tillämpning på skattningsproblem av högre komplexitet. Slutligen utvidgar vi ramverket för tillämpning i ett online-scenario och härleder i samband med det en nedre gräns för förbättringen av skattningens varians.

I den fjärde och sista delen av denna avhandling kan läraren istället modifiera den beslutsfattande agentens handlingar i en människo-robot-interaktion. Vi använder en konfidensbaserad metod för att detektera avvikelser, som roboten sedan kan använda för att uppdatera sin kunskap. Vi presenterar ett ramverk för att skilja mellan avvikelser orsakade av felaktigt inlärda attribut som inte kan generaliseras till nya miljöer och attribut som saknas i robotens modell. Vi demonstrerar vårt ramverk genom att tillämpa det på en robotarm vars handlingar kan korrigeras av en människa. Vi visar även hur omjusteringsprocessen initieras när en avvikelse upptäcks.

urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-338971