Algorithms and machine learning for single-molecule protein sequencing methods
Tid: Fr 2025-11-07 kl 13.00
Plats: F3, Lindstedtvägen 26
Språk: Engelska
Respondent: Javier Kipen , Teknisk informationsvetenskap
Opponent: Senior assistant professor Simone Tiberi,
Handledare: Professor Joakim Jaldén, Teknisk informationsvetenskap
QC 20250930
Abstract
Singelmolekylär proteinsekvensering (SMPS) utgör ett kraftfullt komplement och alternativ till masspektrometri och öppnar för nya möjligheter inom högupplöst proteomik. Tekniker som nanoporer, nanogap-strukturer och fluorosekvensering möjliggör direkt identifiering av enskilda proteinmolekyler med singelmolekylupplösning. Användningsområdet är brett—från stöd för frontlinjens biologiska forskning till utveckling av diagnostik och terapier. Samtidigt genererar SMPS-plattformar komplexa och brusiga signaler i stora volymer, vilket gör den beräkningsmässiga analysen till ett centralt hinder för att realisera teknikernas fulla potential.
Avhandlingen adresserar denna utmaning genom att utveckla skalbara, modellunderbyggda och datadrivna algoritmer specifikt anpassade för SMPS-data. Med utgångspunkt i statistisk signalbehandling och maskininlärning utvecklas metoder som förbättrar brusreducering, inferensnoggrannhet och beräkningseffektivitet över flera SMPS-tekniker.
Bidragen spänner över tre huvudplattformar. För nanogap-baserad tunneleringssensorik presenteras en snabb och robust algoritm för brusreducering som effektivt hanterar det tungsvansade brus som är typiskt för elektroniska tunneleringssignaler. För nanoporsbaserad DNA-avläsning introduceras en fysikinspirerad dataaugmentering som höjer neurala nätverks generaliseringsförmåga utan krav på ytterligare experimentella data. I anslutning därtill föreslås en ny neuronnätsarkitektur som drar nytta av augmenteringen och införlivar moderna designprinciper, bland annat residualkopplingar och uppmärksamhetsmekanismer, vilket sammantaget överträffar state-of-the-art avancerade metoder på en nanoporklassificeringsuppgift.
För fluorosekvensering presenteras två kompletterande komponenter: (i) en snabb beam search-avkodare för peptid-inferens och (ii) ett ramverk för proteinkvantifiering baserat på Expectation Maximization (EM). Avkodaren är upp till tio gånger snabbare än befintliga metoder med endast marginell försämring i noggrannhet. Baserat på dess utdata möjliggör det EM-baserade proteininferensramverket effektiv skattning av proteinabundanser från posteriorer på peptidnivå. Vi visar att angreppssättet inte bara förbättrar kvantifieringsnoggrannheten på småskaliga dataset, utan även skalar till hela det mänskliga proteomet med hanterbara beräkningstider, och därmed erbjuder en praktiskt genomförbar väg mot singelmolekylär proteomik i stor skala. Tillsammans bidrar dessa verktyg till att göra SMPS beräkningsmässigt hanterligt i den skala som krävs för helproteom- och enkelcellsanalyser.
Samtliga metoder i avhandlingen har gjorts tillgängliga som programvara med öppen källkod, i linje med ett starkt åtagande för reproducerbarhet och för att stödja det växande forskningsfältet kring SMPS. Genom att förena domänkunskap, välgrundad algoritmdesign och beräkningseffektivitet syftar avhandlingen till att flytta fram gränserna för vad som är möjligt inom nästa generations proteomik.