Till innehåll på sidan
Till KTH:s startsida

Machine Learning Models in Proteomics and Phylogenetics

Tid: To 2025-06-12 kl 14.00

Plats: Air&Fire, Tomtebodavägen 23A, Solna

Språk: Engelska

Ämnesområde: Bioteknologi

Respondent: Patrick Truong , Science for Life Laboratory, SciLifeLab, Genteknologi

Opponent: Dr. Thomas Burger, University of Grenoble Alpes

Handledare: Professor Lukas Käll, Science for Life Laboratory, SciLifeLab, Genteknologi, SeRC - Swedish e-Science Research Centre

Exportera till kalender

QC 2025-05-21

Abstract

Den exponentiella tillväxten av biologiska data under de senaste åren har möjliggjort utvecklingen av sofistikerade beräkningsmetoder för att extrahera meningsfulla insikter. Denna avhandling utforskar olika aspekter av bioinformatik, med fokus på benchmarking av befintliga metoder och utveckling av nya tillvägagångssätt för att hantera aktuella utmaningar i fältet.

I takt med att den beräkningsbiologiska disciplinen och storskaliga biologiska dataset expanderar, har biologin genomgått ett paradigmskifte mot datadrivna metoder. Denna omställning drivs av framsteg inom högkapacitetsteknologier som genererar enorma mängder genomiska, proteomiska och andra omikdata. Den stora volymen och komplexiteten i dessa dataset kräver innovativa beräkningsstrategier.

Datadrivna metoder spelar en allt viktigare roll inom biologisk forskning tack vare deras förmåga att identifiera dolda mönster, förutsäga utfall och generera hypoteser från omfattande datamängder. Dessa tillvägagångssätt gör det möjligt för forskare att angripa komplexa biologiska problem som tidigare varit svårlösta, vilket i sin tur har lett till genombrott inom områden som personlig medicin, läkemedelsutveckling och systembiologi.

Denna avhandling presenterar fyra studier som främjar bioinformatiska metoder och deras tillämpningar. Den första studien modifierar och utvärderar prestandan hos Triqler, en probabilistisk grafisk modell, för proteinkvantifiering i dataoberoende insamling (DIA) masspektrometri. Genom att anpassa Triqler för DIA-data och jämföra den med etablerade metoder visar vi dess överlägsna prestanda i att identifiera differentiella proteiner samtidigt som den upprätthåller bättre statistisk kalibrering.

Den andra studien introducerar Prosit-transformers, ett nytt tillvägagångssätt för MS2-spektrumintensitetsprediktion. Genom att införliva en transformatormodell förtränad på proteinfunktioner uppnår vi förbättrad prediktionsnoggrannhet och minskad träningstid jämfört med den ursprungliga Prosit-modellen baserad på rekurrenta neurala nätverk.

Den tredje studien utforskar proteomvid alkylering för att förbättra peptidsekvenstäckning och detektionskänslighet i proteomiska analyser. Genom systematisk modifiering av peptider med varierande alkylkedjelängder visar vi betydande förbättringar i joniseringssignaler, särskilt för hydrofila peptider. Detta tillvägagångssätt har potentiella tillämpningar inom nanoproteomik och enkelcellsproteomik, där provmaterialet är begränsat.

Slutligen presenterar den fjärde studien difFUBAR, en skalbar Bayesiansk metod för att jämföra selektionstryck mellan olika uppsättningar av grenar i fylogenetiska analyser. Implementerad i det Juliabaserade ramverket MolecularEvolution.jl erbjuder difFUBAR förbättrad beräkningseffektivitet genom caching av delträdsannolikheter och ger ett robust alternativ till frekventistiska metoder för att karakterisera platsvis variation i selektionsparametrar.

Sammantaget bidrar dessa studier med riktmärken för dessa nya metoder för att fastställa deras överlägsenhet jämfört med befintliga metoder och bidrar till att utveckla arsenalen av nya beräkningsmetoder inom bioinformatik. Genom att ta itu med utmaningar inom proteomik, beräkningsbiologi och evolutionär analys bidrar denna avhandling till den pågående utvecklingen av datadrivna metoder inom biologin. Arbetet som presenteras här förbättrar inte bara vår förståelse av biologiska system utan ger också forskare förbättrade verktyg för att extrahera meningsfulla insikter från komplexa biologiska data.

urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-363684