Till innehåll på sidan
Till KTH:s startsida

Multilingual Language Models

Studies of Pre-Training Approaches and Hallucination Detection

Tid: Må 2024-12-16 kl 14.00

Plats: Kollegiesalen, Brinellvägen 8, Stockholm

Videolänk: https://kth-se.zoom.us/s/3719008936

Språk: Engelska

Respondent: Evangelia Gogoulou , Programvaruteknik och datorsystem, SCS, RISE Research Institutes of Sweden

Opponent: Professor Barbara Plank, Ludwig-Maximilians-Universität München, München, Germany

Handledare: Professor Magnus Boman, Programvaruteknik och datorsystem, SCS; Professor Joakim Nivre, RISE Research Institutes of Sweden, Uppsala University; Professor Hedvig Kjellström, Robotik, perception och lärande, RPL

Exportera till kalender

QC 20241119

Abstract

Stora språkmodeller blir kontinuerligt mer kraftfulla men deras förmåga varierar stort mellan olika språk. En sätt att hantera detta är att träna flerspråkiga modeller som möjliggör tvärspråklig transferinlärning, så att kunskap från högresursspråk kan utnyttjas för att förbättra förmågan för lågresursspråk. Det finns emellertid gränser för hur många språk modellerna kan stödja. Denna avhandling undersöker hur interaktionen mellan språk under förträning påverkar modellers förmåga i olika scenarier, med avseende på träningsupplägg, modellarkitektur och utvärderingskriterier. Vi undersöker först skalbarheten i samtidigt flerspråkig förträning av generativa modeller. Vi förtränar den första storskaliga autoregressiva språkmodellen för engelska och svenska och finner att dess förmåga förbättras med ökande datavolymer och antal parametrar. Därefter studerar vi framåtriktade tvärspråkliga transfer-effekter vid inkrementell förträning. Våra experiment med att överföra enspråkiga språkmodeller från fyra olika språk till engelska visar att framåtriktade transfer-effekter är genomgående positiva när man mäter modellernas förmåga i specifika tillämpningar. Från denna utgångspunkt analyserar vi sedan både framåtriktade och bakåtriktade effekter av inkrementell förträning av autoregressiva språkmodeller för olika sekvenser av språk. Medan framåtriktade transfer-effekter återigen alltid är positiva, visar sig bakåtriktade transfer-effekter bero av språkens ordning och egenskaper. Vår analys av möjliga förklaringsfaktorer för bakåtriktad transfer visar på en potentiellt viktig roll för språkkontaminering och syntaktisk likhet. Slutligen genomför vi en jämförande studie av autoregressiva modellers förmåga att upptäcka intrinsikala hallucinationer vid parafrasgenerering och maskinöversättning när de tränats med olika kombinationer av språk. Våra experiment visar att modellerna har en likvärdig förmåga för olika språk, samt att modellspecifika faktorer såsom modellstorlek och instruktionsträning har stor inverkan på resultatet. Avhandlingens resultat bidrar till att öka vår förståelse av tvärspråklig transferinlärning och lägger grunden för flerspråkiga modeller med förbättrad inlärningskapacitet och bibehållen förmåga för tidigare språk. Vårt arbete bidrar dessutom till utvärderingen av autoregressiva flerspråkiga språkmodeller genom att tillhandahålla resurser och metoder för att studera hallucinationsfenomenet i modellgenererad text.

urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-356567