Foundations of Trustworthy AI-Native Data Systems

Tid: Må 2026-06-15 kl 14.00

Plats: F3 Flodis, Lindstedtvägen 26

Videolänk: https://kth-se.zoom.us/j/65502477126

Språk: Engelska

Respondent: Sonia-Florina Horchidan , Datatekniska och lärande system

Opponent: Doctor Konstantinos Karanasos, Meta Research, Menlo Park, CA, USA

Handledare: Paris Carbone, Datatekniska och lärande system

Exportera till kalender

QC 20260522

Abstract

I traditionella datahanteringssystem har frågor väldefinierad semantik och producerar exakta resultat. Att integrera maskininlärningsinferens i databehandlingspipelines stör båda dessa egenskaper genom att introducera operatorer vars utdata är approximativa snarare än exakta. Denna avhandling etablerar två grundpelare för tillförlitliga AI-nativa datasystem: empirisk karaktärisering av exekveringskostnaden för ML-operatorer, samt formella, deklarativa korrekthetsgarantier som systemet upprätthåller å användarens vägnar. Vi utvecklar dessa grundpelare över tre abstraktionsnivåer, från enskild operatorkostnad till enskild operatorkorrekthet, och slutligen till deras gemensamma optimering på pipelinenivå. Vi etablerar Conformal Prediction som en praktisk statistisk grund för detta tillvägagångssätt. Vi introducerar Crayfish, ett benchmarkingramverk för ML-inferens inom dataflödesmotorer som synliggör hur interaktioner mellan serving-verktyg, strömprocessorer och pipelinekonfigurationer formar inferenskostnaden på sätt som är svåra att förutse enbart utifrån enskilda komponenters beteende. Vi föreslår ConANN, det första ramverket som erbjuder distributionsfria recall-garantier för Inverted File-baserad approximativ närmaste-granne-sökning, genom att använda konforma metoder för att ersätta heuristisk indexjustering med formella statistiska garantier. På pipelinenivå studerar vi gemensam optimering av kostnad och korrekthet i kontexten av neurala grafdatabaser, där flerstegsfrågor över kunskapsgrafer varvar hämtning med neural exekvering. Vi formaliserar en hybrid frågeoptimeringsarkitektur för detta scenario och introducerar sedan ConRAD, som upprätthåller end-to-end recall-garantier för flerstegsfrågor och samtidigt dynamiskt kringgår kostsam neural inferens när recall-målen kan uppnås med enbart lokal grafevidens. Sammantaget visar dessa bidrag att den stringens som användare förväntar sig av traditionella datasystem inte behöver överges i takt med att dessa system i allt högre grad drivs av maskininlärning.

Link to DiVA

Till kalendern

Din anställning

Stöd och service

Utbilda

Forska

Organisation och styrning

Foundations of Trustworthy AI-Native Data Systems

Abstract

Kontakt