Till innehåll på sidan
Till KTH:s startsida Till KTH:s startsida

Adaptive Robot Presenters

Modelling Grounding in Multimodal Interaction

Tid: Fr 2023-11-10 kl 14.00

Plats: F3 (Flodis), Lindstedtsvägen 26 & 28, Stockholm

Videolänk: https://kth-se.zoom.us/j/62979383325?pwd=VnJ1a1N6azZpaGxvZVZmVkU1NE5ZUT09

Språk: Engelska

Ämnesområde: Tal- och musikkommunikation

Respondent: Agnes Axelsson , Tal, musik och hörsel, TMH

Opponent: Professor Elisabeth André, Universität Augsburg

Handledare: Professor Gabriel Skantze, Tal, musik och hörsel, TMH; Professor Johan Boye,

Exportera till kalender

QC 20231017

Abstract

Denna avhandling behandlar ämnet multimodal kommunikativ grundning (grounding) mellan robotar och människor. Detta är processen för hur en människa och en robot kan säkerställa att de har en gemensam förståelse. För att utforska detta ämne ämne, används ett scenario där en robot håller en presentation för en mänsklig publik. Roboten måste analysera multimodala signaler från människan för att anpassa presentationen till människans nivå av förståelse.

Först undersöks hur beteendeträd kan användas för att modellera realtidsaspekterna av interaktionen mellan robotpresentatören och dess publik. Ett system som baseras på beteendeträdsarkitekturen används i ett delvis automatiskt, delvis människostyrt experiment, där det visas att publikmedlemmar i labbmiljö föredrar ett system som anpassar presentationen till deras reaktioner över ett som inte anpassar sin presentation.

Efter detta, urdersöker också avhandlingen hur kunskapsgrafer kan användas för att representera innehållet som roboten presenterar. Om en liten, lokal kunskapsgraf byggs så att den innehåller relationer (kanter) som representerar fakta i presentationen, så kan roboten iterera över grafen och konsekvent hitta refererande uttryck som använder sig av kunskap som publiken redan har. Ett system som baseras på denna arkitektur implementeras, och ett experiment med simulerade interaktioner utförs och presenteras. Experimentets resultat visar att utvärderare som jämför olika anpassningsstrategier föredrar ett system som kan utföra den sortens anpassning som grafmetoden tillåter. 

Publikens reaktioner i ett presentationsscenario kan ske genom olika modaliteter, som tal, huvudrörelser, blickriktning, ansiktsuttryck och kroppsspråk. För att klassificera kommunikativ återmatning (feedback) av dessa modaliteter från presentationspubliken, utforskas hur sådana signaler kan analyseras automatiskt. En datamängd med interaktioner mellan en människa och vår robot annoteras, och statistiska modeller tränas för att klassificera mänskliga återmatningssignaler från flera olika modaliteter som positiva, negativa eller neutrala. En jämförelsevis hög klassifikationsprecision uppnås genom att träna enklare klassifikationsmodeller på relativt få klasser av signaler i tal- och huvudrörelsemodaliteterna. Detta antyder att museiscenariot med en robotpresentatör inte uppmuntrar publiken att använda komplicerade, mångtydiga kommunikativa beteenden.

När kunskapsgrafer används som presentationssystemets informationsrepresentation, behövs det konsekventa metoder för att generera text som kan omvandlas till tal, från grafdata. Graf-till-text-problemet utforskas genom att föreslå flera olika metoder, både enklare mall-baserade sådana och mer avancerade metoder baserade på stora språkmodeller (LLM:er). Genom att föreslå en ny utvärderingsmetod där sanna, fiktiva och falska grafer genereras, visar vi också att sanningshalten i vad som uttrycks påverkar kvaliteten i texten som LLM-metoderna ger från kunskapsgrafdata.

Avhandlingen använder sig slutligen av alla de ovanstående föreslagna komponenterna i ett och samma helautomatiska presentationssystem. Resultaten visar att publikmedlemmar föredrar ett system som anpassar sin presentation över ett som inte anpassar sin presentation, vilket speglar resultaten från början av avhandlingen. Vi ser också att tydliga inlärningsresultat uteblir i detta experiment, vilket kanske kan tolkas som att publikmedlemmarna i museiscenariot snarare letar efter en underhållare än efter en lärare som presentatör.

urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-338178