Foundations of Trustworthy AI-Native Data Systems
Tid: Må 2026-06-15 kl 14.00
Plats: F3 Flodis, Lindstedtvägen 26
Videolänk: https://kth-se.zoom.us/j/65502477126
Språk: Engelska
Respondent: Sonia-Florina Horchidan , Datatekniska och lärande system
Opponent: Doctor Konstantinos Karanasos, Meta Research, Menlo Park, CA, USA
Handledare: Paris Carbone, Datatekniska och lärande system
QC 20260522
Abstract
I traditionella datahanteringssystem har frågor väldefinierad semantik och producerar exakta resultat. Att integrera maskininlärningsinferens i databehandlingspipelines stör båda dessa egenskaper genom att introducera operatorer vars utdata är approximativa snarare än exakta. Denna avhandling etablerar två grundpelare för tillförlitliga AI-nativa datasystem: empirisk karaktärisering av exekveringskostnaden för ML-operatorer, samt formella, deklarativa korrekthetsgarantier som systemet upprätthåller å användarens vägnar. Vi utvecklar dessa grundpelare över tre abstraktionsnivåer, från enskild operatorkostnad till enskild operatorkorrekthet, och slutligen till deras gemensamma optimering på pipelinenivå. Vi etablerar Conformal Prediction som en praktisk statistisk grund för detta tillvägagångssätt. Vi introducerar Crayfish, ett benchmarkingramverk för ML-inferens inom dataflödesmotorer som synliggör hur interaktioner mellan serving-verktyg, strömprocessorer och pipelinekonfigurationer formar inferenskostnaden på sätt som är svåra att förutse enbart utifrån enskilda komponenters beteende. Vi föreslår ConANN, det första ramverket som erbjuder distributionsfria recall-garantier för Inverted File-baserad approximativ närmaste-granne-sökning, genom att använda konforma metoder för att ersätta heuristisk indexjustering med formella statistiska garantier. På pipelinenivå studerar vi gemensam optimering av kostnad och korrekthet i kontexten av neurala grafdatabaser, där flerstegsfrågor över kunskapsgrafer varvar hämtning med neural exekvering. Vi formaliserar en hybrid frågeoptimeringsarkitektur för detta scenario och introducerar sedan ConRAD, som upprätthåller end-to-end recall-garantier för flerstegsfrågor och samtidigt dynamiskt kringgår kostsam neural inferens när recall-målen kan uppnås med enbart lokal grafevidens. Sammantaget visar dessa bidrag att den stringens som användare förväntar sig av traditionella datasystem inte behöver överges i takt med att dessa system i allt högre grad drivs av maskininlärning.