Till innehåll på sidan

Variational methods for phylogeny and single-cell genomics

Tid: Fr 2023-02-17 kl 14.00

Plats: Air & Fire, SciLifeLab, Tomtebodavägen 23, Solna

Videolänk: https://kth-se.zoom.us/j/69058691435

Språk: Engelska

Ämnesområde: Datalogi

Respondent: Hazal Koptagel , Beräkningsvetenskap och beräkningsteknik (CST), Science for Life Laboratory, SciLifeLab

Opponent: Professor Alexandre Bouchard-Côté, University of British Columbia

Handledare: Professor Jens Lagergren, Beräkningsvetenskap och beräkningsteknik (CST), Science for Life Laboratory, SciLifeLab

Exportera till kalender

QC 20230125

Abstract

Undersökningen av organismers evolutionära historia, både på cellnivå och artnivå, är ett relevant forskningsämne inom beräkningsbiologi. Dessa studier leder till en djupare förståelse för utveckling, cancerprogression, arternas genetiska likhet med mera. Ett sätt att studera relationerna mellan enskilda celler eller arter är att undersöka skillnaderna i deras genom, inklusive enbaspolymorfier och kopienummervariationer. Det genetiska materialet behöver extraheras och sekvenseras för att användas i analyserna, men fel kan uppstå under databeredningen. Utvecklingen av sofistikerade, probabilistiska modeller är av yttersta vikt vid hantering av tekniska artefakter och inkludering av osäkerhet i analysen.

I denna sammanställningsavhandling studerade vi olika frågeställningar och presenterade fyra artiklar för att ta itu med olika utmaningar.

Först fokuserade vi på enstaka celler från frisk vävnad och utvecklade en probabilistisk modell för att rekonstruera cellhärkomstträdet. Denna uppgift är utmanande ur flera aspekter; i) de friska cellerna har en låg mutationshastighet och introducerar därför inte många mutationer vid varje celldelning, ii) friska celler har vanligtvis inte signifikanta strukturella variationer för att förbättra analysen; och iii) sekvenseringsteknologin introducerar fel, och några av dessa fel är svåra att skilja från mutationerna. Med den experimentella studien visade vi att vår modell är snabb, robust och exakt rekonstruerar härstamningsträd.

För det andra fokuserade vi på cancerceller. Ett forskningsämne är att identifiera strukturella variationer i cancercellernas genom och därefter gruppera cellerna med liknande genomprofiler. Denna tvåstegsprocess är fragil; ofullkomligheterna i det första steget kan oåterkalleligt påverka analysen i det andra steget. För att lösa detta problem utvecklade vi en variationsbaserad modell som simultant utför kopienummerprofilering och cellklustring. Dessutom utökade vi modellen för att inkorporera enskilda enbaspolymorfier för att förbättra prestandan.

För det tredje adresserade vi problemet med inferens av fylogenetiska träd och utvecklade en variationsbaserad modell för att utföra inferensen. Trädtopologirummet, som innehåller alla möjliga fylogenetiska trädstrukturer, är enormt och att ta hänsyn till varje unikt träd är omöjligt i praktiken. De befintliga variationsbaserade inferensmetoderna måste begränsa sin analys till en mycket mindre delmängd av trädrummet. Vår föreslagna modell kräver inte sådana begränsningar och kan få liknande prestanda samtidigt som den kräver betydligt mindre tid och minne.

Slutligen antog vi en utmaning i allmän variationsinferens. Variationsinferensmetoderna riktar sig mot en komplex, vanligtvis multimodal a posteriori-distribution och försöker approximera den med mycket enklare, ofta unimodala distributioner. Detta designval gör att variationsmodellerna passar en av många moder av målfördelningen, och således fångar de inte det övergripande mönstret för målfördelningen. Vi föreslog ett enkelt men effektivt sätt att använda separat tränade variationsmodeller för att fånga målfördelningens multimodalitet och demonstrerade approximationsprestandan med hjälp av flera olika metoder och datatyper.

Vi adresserade olika utmaningar inom beräkningsbiologi med dessa fyra artiklar och bidrog till fältets framsteg genom att utveckla probabilistiska modeller.

urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-323293