Till innehåll på sidan
Till KTH:s startsida

Practical and Efficient Transfer Learning with Foundation Models for Medical Image Analysis

Tid: Må 2026-06-01 kl 13.00

Plats: Kollegiesalen, Brinellvägen 8, Stockholm

Videolänk: https://kth-se.zoom.us/s/61380111041

Språk: Engelska

Ämnesområde: Datalogi

Respondent: Moein Sorkhei , Beräkningsvetenskap och beräkningsteknik

Opponent: Karim Lekadir, Universitat de Barcelona

Handledare: Professor Kevin Smith, Beräkningsvetenskap och beräkningsteknik; Hossein Azizpour, SeRC - Swedish e-Science Research Centre

Exportera till kalender

QC 20260508

Abstract

Foundation-modeller – storskaliga AI-modeller tränade på mycket stora och varierade datamängder – har omformat modern artificiell intelligens genom att möjliggöra effektiv kunskapsöverföring mellan olika uppgifter och domäner. Genom att lära sig breda och generella representationer kan en och samma förtränad modell anpassas till ett stort antal nedströmsapplikationer. Trots dessa framsteg kvarstår betydande utmaningar när det gäller att omsätta dessa modeller i praktisk samhällsnytta. Centrala hinder inkluderar att avgöra när överföringsinlärning faktiskt är fördelaktig, att anpassa allt större modeller under realistiska beräkningsbegränsningar samt att möjliggöra tillförlitlig användning i högkritiska och databegränsade miljöer, såsom kliniska sammanhang.

Denna avhandling undersöker hur överföringsinlärning med moderna foundation-modeller kan göras mer tillförlitlig, effektiv och praktiskt användbar. Först behandlas den grundläggande frågan om när överföringsinlärning förväntas ge förbättrad prestanda. Genom en storskalig empirisk studie som omfattar olika domäner, uppgifter och modellarkitekturer visar vi att befintliga mått för att uppskatta överförbarhet ofta ger otillförlitlig vägledning under realistiska tillämpningsförhållanden. Vi introducerar därför en enkel och robust metod som mer träffsäkert kan förutsäga de förväntade vinsterna med överföringsinlärning innan kostsam modellanpassning genomförs.

Trots de potentiella fördelarna med stora foundation-modeller begränsas deras praktiska användning ofta av deras storlek. Med miljarder parametrar är fullständig finjustering beräkningsmässigt kostsam och ofta orealistisk under normala resursbegränsningar. I denna avhandling föreslås en effektiv anpassningsstrategi som avsevärt minskar den beräkningsmässiga kostnaden utan att försämra prestandan. För att ytterligare bredda tillämpbarheten utvidgar vi denna effektiva anpassningsram till domäner där märkta data är begränsade. Inom exempelvis medicinsk bildanalys är expertannotering kostsam och knapp, medan omärkta data ofta är mer tillgängliga. Vi utvecklar därför en anpassningsmetod som möjliggör effektiv anpassning av foundation-modeller till medicinska domäner trots betydande brist på märkta data.

Slutligen fokuserar vi på en konkret klinisk tillämpning inom mammografi, ett område som kännetecknas av begränsad tillgång till offentliga dataset och höga annoteringskostnader. Vi introducerar ett storskaligt, expertannoterat dataset och definierar en kliniskt motiverad prediktionsuppgift för att uppskatta tumörmaskering – en viktig faktor som påverkar diagnostisk tillförlitlighet vid bröstcancerscreening. Vi visar att djupinlärningsmodeller effektivt kan hantera denna uppgift och belyser dess betydelse för riskbaserat kliniskt beslutsstöd och praktisk implementering i vårdmiljöer.

Link to DiVA