Till innehåll på sidan
Till KTH:s startsida

Mapping voice quality in normal, pathological and synthetic voices

Tid: Fr 2025-03-14 kl 14.00

Plats: Rum B:218, Q2, Malvinas Väg 10, Campus

Videolänk: https://kth-se.zoom.us/j/61856204062?pwd=0aLP1ptM9OMUaaXUFuSBxV6bbu74iO.1

Språk: Engelska

Ämnesområde: Datalogi

Respondent: Huanchen Cai , Tal, musik och hörsel, TMH

Opponent: Professor Zhaoyan Zhang, University of California, Los Angeles, USA

Handledare: Professor Sten Ternström, Tal-kommunikation; Professor Olov Engwall, Tal-kommunikation

Exportera till kalender

QC 20250224

Abstract

Utvärdering av röstkvalitet är en viktig aspekt inom både kliniska och teknologiska tillämpningar och omfattar områden som talterapi, diagnos av fonationsstörningar och text-till-tal (TTS) syntes. Traditionella metoder för att bedöma röstkvalitet är ofta subjektiva och bygger på auditiv-perceptuella utvärderingsskalor, vilket kan leda till variation och partiskhet. Denna avhandling utforskar flera nya tillämpningar för objektiv röstkvalitetsbedömning med hjälp av röstkartläggning – en visualiseringsteknik som integrerar röstomfång och kvalitetsmått. Genom att plotta akustiska och elektroglottografiska (EGG) mått på ett plan definierat av grundtonsfrekvens (fo) och ljudtrycksnivå (SPL), möjliggör röstkartläggning en omfattande förståelse av röstegenskaper.

Denna avhandling bygger på en sammanställning av fem studier, varav tre har publicerats i arkivtidskrifter, och två i skrivande stund är under granskning. Artikel I påvisar det grundläggande beroendet hos röstmått av grundtonsfrekvens och ljudtrycksnivå, genom analys av data från individer med röststörningar. Artikel II utökar metodiken genom att använda klustringstekniker för att klassificera fonationstyper baserat på ett inspelnings-korpus av normofoniska vuxna och barn. Artikel III tillämpar röstkartläggning på inspelningar före och efter tyroidektomi och påvisar kirurgiska förändringar i röstkvalitet och omfång. Artikel IV redogör för en djupinlärningsbaserad modell för att förutspå EGG-signaler från akustiska inspelningar. Artikel V visar nyttan av röstkartläggning vid utvärdering av syntetiska TTS-röster och lyfter fram dess potential för objektiv, måttbaserad bedömning av TTS-kvalitet.

Denna avhandling belyser vikten av att integrera akustiska och EGG-mått för att uppnå en objektiv bedömning av röstkvalitet. De mått som används i denna metodik, inklusive akustiska och EGG-baserade mått, fångar aspekter av fonation i såväl tids- som frekvensdomänen, vilket möjliggör en detaljerad karakterisering av röstens dynamik. Resultaten visar att röstkartläggning är effektiv inte bara i kliniska miljöer för att förstå röststörningar utan också erbjuder en robust ram för utvärdering av syntetiska röster. Röstkartor bidrar till synergin mellan perceptuell och kvantitativ röstanalys. Framtida forskningsinriktningar inkluderar förbättring av klustringsmetoder, ökad noggrannhet i EGG-prediktion och utvidgning av röstkartläggning till bredare kliniska och teknologiska tillämpningar.

urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-360211