On computational methods for spatial mapping of the human proteome
Tid: Fr 2022-12-16 kl 10.09
Plats: Samuelssonsalen, Tomtebodavägen 6, Solna
Språk: Engelska
Ämnesområde: Bioteknologi
Respondent: Casper F. Winsnes , Cellulär och klinisk proteomik, Science for Life Laboratory, SciLifeLab
Opponent: Professor Ida-Maria Sintorn, Uppsala universitet
Handledare: Professor Emma Lundberg, Science for Life Laboratory, SciLifeLab, Albanova VinnExcellence Center for Protein Technology, ProNova, Cellulär och klinisk proteomik
QC 2022-11-17
Abstract
Proteiner är komplexa molekyler som är inblandade i nära nog varje kroppslig funktion. Överlag är ett proteins roll högst beroende av var i cellen det befinner sig, dess subcellulära lokalisation. För att förstå mänsklig biologi är det därför nödvändigt att få insikt i proteinernas värld genom att undersöka deras subcellulära distribution och hur de interagerar med varandra. Den här avhandlingen fokuserar på utvecklandet av datormodeller kapabla att genomföra storskalig spatiell proteinanalys på en subcellulär nivå. Inom detta tillämpningsområde kunde vi utveckla modeller för att klassificera lokaliseringen av proteiner i immunofluorescensmikroskopibilder och visa hur sådana modeller kan interagera med andra metoder för nya insikter i proteiners roller och deras rumsberoende funktioner.
I Artikel I presenterar vi och kombinerar två separata metoder för storskalig proteinlokalisering. Den första metoden är en integration av en proteinlokaliseringsuppgift som ett minispel i ett etablerat massivt onlinespel. Den andra metoden består av den första bildbaserade djupa neuralnätverksmodellen kapabel att multietikettklassificera subcellulär proteinlokalisering. Vi visar att båda metoderna gör det möjligt att genomföra precisa och skalbara analyser av subcellulär proteinlokalisering, med hög genomströmning, som överkommer många av de svårigheter som är associerade med sådana dataset. Vi visar också att en kombination av de två metoderna producerar bättre resultat än var metod gör för sig och resulterar i en modell som närmar sig mänsklig prestanda.
I Artikel II fortsätter vi, baserat på framgången med Artikel I:s neuralnätverksmodell, undersöka användningen av djupa neuralnätverk för subcellulär proteinlokalisering. I ett försök att hitta den bästa möjliga modellen för sådana uppgifter utvecklade vi en bildbaserad maskininlärningstävling. Över 2.000 lag deltog med olika typer av arkitekturer, vilket resulterade i en prediktor som långt överträffar den som presenterades i Artikel I. Den vinnande modellen blir noggrant analyserad och vi visar att dess interna numeriska representation innehåller biologiskt relevant information samt att dessa kan användas för kvantiativ analys av proteinmönster.
Artikel III använder den numeriska representationen av immunofluorescensbilder från modellen utvecklad i Artikel II och integrerar den med en numerisk representation extraherad från affinitetsreningsexperiment för att skapa en hierarkisk karta över den mänskliga cellens arkitektur. Denna metod gör en kartläggning över grupper av proteiner, av vilka cirka 54% av grupperna är förmodat nya. Vi visar att kartläggningen är biologiskt signifikant genom att validera ett flertal av de nya upptäckterna med affinitetsreningsexperiment och insitu fraktionering.
I Artikel IV applicerar vi vad vi lärt oss från Artikel I och II för att skapa en modell som identifierar proteiner som befinner sig i mikrokärnor. Vi applicerar modellen på bilddata från Human Protein Atlas för att skapa den första omfattande kartläggningen av mikrokärneproteomet. Med hjälp av anrikningsanalys föreslår vi att mikrokärnor har en mer mångfaldig funktionalitet än vad som tidigare har antagits. Vi finner att mikrokärneproteomet är starkt sammanlänkat samt innehåller många proteiner som uppvisar variation mellan olika mikrokärnor och diskuterar vad detta betyder för deras roll i cellen.
Sammanfattat, Artikel I och II undersöker och etablerar möjligheterna för användning av djupa neuralnätverk för systematisk subcellulär proteinlokaliseringsanalys. Artikel III och IV bygger vidare på vad vi lärt oss i Artikel I och II och använder deras modeller för att undersöka proteindistributionsmönster och förser oss med nya biologiska insikter.