Towards Scalable Machine Learning with Privacy Protection
Tid: Ti 2023-11-21 kl 10.00
Plats: D31, Lindstedtsvägen 5, Stockholm
Språk: Engelska
Ämnesområde: Datalogi Informations- och kommunikationsteknik
Licentiand: Dominik Fay , Reglerteknik
Granskare: Professor Antti Honkela, Department of Computer Science, University of Helsinki, Helsinki, Finland
Huvudhandledare: Professor Mikael Johansson, Reglerteknik; Professor Tobias J. Oechtering, Teknisk informationsvetenskap; Assistant professor Jens Sjölund, Department of Information Technology, Division of Systems and Control, Uppsala University, Uppsala, Sweden
QC 20231101
Abstract
Den ständigt ökande storleken och komplexiteten hos datamängder har accelererat utvecklingen av maskininlärningsmodeller och gjort behovet av mer skalbara lösningar alltmer uppenbart. Den här avhandlingen utforskar tre utmaningar förknippade med storskalig maskininlärning under dataskyddskrav. För stora och komplexa maskininlärningsmodeller blir traditionella metoder för integritet, såsom datananonymisering, otillräckliga. Vi undersöker därför alternativa tillvägagångssätt, såsom differentiell integritet.
Vår forskning behandlar följande utmaningar inom skalbar och integitetsmedveten maskininlärning: För det första undersöker vi hur hög data-dimensionalitet påverkar integriteten för medicinsk bildanalys. Vi utvidgar klassificeringsalgoritmen Private Aggregation of Teacher Ensembles (PATE) för att hantera högdimensionella etiketter och visar att dimensionsreducering kan användas för att förbättra integriteten. För det andra studerar vi hur valet av hyperparametrar påverkar integriteten. Här föreslår vi en ny adaptiv teknik för val av hyperparametrar i gradient-baserad optimering med garantier på differentiell integritet. För det tredje granskar vi urvalsbaserade lösningar för att skala differentiellt privat maskininlärning till stora datamängder. Vi studerar de integritetsförstärkande egenskaperna hos importance sampling och visar att det kan överträffa ett likformigt urval av sampel, inte bara när det gäller effektivitet utan även för integritet.
De tre teknikerna som utvecklats i denna avhandling förbättrar skalbarheten för integritetsskyddad maskininlärning och syftar till att erbjuda lösningar för effektiv och säker tillämpning av maskininlärning på stora datamängder.