Till innehåll på sidan

Predictive Modeling of Turn-Taking in Spoken Dialogue

Computational Approaches for the Analysis of Turn-Taking in Humans and Spoken Dialogue Systems

Tid: Fr 2023-12-08 kl 10.00

Plats: F3 (Flodis), Lindstedtsvägen 26 & 28, Stockholm

Språk: Engelska

Ämnesområde: Datalogi Människa-datorinteraktion Tal- och musikkommunikation

Respondent: Erik Ekstedt , Tal, musik och hörsel, TMH

Opponent: Professor Roger Moore, Department of Computer Science, University of Sheffield, Sheffield, UK

Handledare: Professor Gabriel Skantze, Tal, musik och hörsel, TMH

Exportera till kalender

QC 20231115

Abstract

Turtagning inom talad dialog involverar en komplex sammarbetsprocess där talarna använder sig av prosodiska och semantiska signaler för att koordinera vem som ska tala och vem som lyssnar, förutse turbyten och producera återkopplingssignaler (t.ex. “mhm”, “uh-huh”, m.m.) på rätt ställen. Denna avhandling modellerar turtagning i termer av röstaktivitetsdynamik hos talarna, med fokus på prediktiv modellering av denna dynamik med både textoch ljudbaserade maskininlärningsmodeller. Dessa modeller arbetar inkrementellt och uppskattar aktivitetsdynamiken över alla potentiella dialogtillstånd och samtalsparter under en konversation. Målet är att dessa modeller ska öka responsiviteten hos talbaserade dialogsystem samtidigt som de minimerar hur ofta systemet avbryter användaren. Utöver dessa tillämpningar läggs även ett betydande fokus på att utforska hur dessa modeller kan användas som datadrivna, modellbaserade verktyg för att analysera generella mänskliga konversationsmönster.

Denna avhandling fokuserar på implementering och analys av två distinkta modeller för turtaking: TurnGPT, som processar verbal information (text), och Voice Activity Projection (VAP), som processar aukustisk information (tal). Modellerna är tränade genom att optimera generella prediktionsmål, vilket möjliggör användningsområden bortom enbart turtagning, t.ex. för nyskapande analyser av talad dialog. Genom att använda uppmärksamhets- och gradientbaserade tekniker belyser denna avhandling den avgörande rollen av kontext när det gäller att klassificera talarövergångar inom den verbala domänen. Möjligheten att integrera TurnGPT i dialogsystem – genom att använda en samplingbaserad strategi för att förutspå kommande turbyten från ofullständig text, d.v.s. ord som ännu inte transkriberats av taligenkänningen – undersöks för att förbättra systemets responsivitet. VAP-modellen, som modellerar båda dialogdeltagarnas gemensamma röstaktivitet, introduceras och anpassas för att hantera ljud i stereo. Modellens prosodiska känslighet undersöks både i specifikt valda yttranden och inom längre dialoger. Denna analys visar att medan intonation är avgörande för att särskilja syntaktiskt tvetydiga yttranden, spelar den en mindre viktig roll i generell turtagning inom längre dialoger. VAP-modellens analytiska kapacitet lyfts fram för att bedöma effekten av fyllda pauser och som utvärderingsverktyg för konversationell talsyntes, detta för att bestämma deras förmåga att producera prosodiskt relevanta turtagninssignaler.

urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-339630