Efficient Machine Learning for Edge Computing
Architecture and Application
Tid: Fr 2025-03-28 kl 13.00
Plats: Ka-Sal B (Peter Weissglas), Kistagången 16, Kista
Videolänk: https://kth-se.zoom.us/j/63180568741
Språk: Engelska
Ämnesområde: Informations- och kommunikationsteknik
Respondent: Wenyao Zhu , Elektronik och inbyggda system
Opponent: Associate Professor Miquel Moretó Planas, Computer Architecture Department (DAC), Universitat Politècnica de Catalunya (UPC), Barcelona, Spain
Handledare: Professor Zhonghai Lu, Elektronik och inbyggda system; Associate Professor Dejiu Chen, Mekatronik och inbyggda styrsystem
QC 20250305
Abstract
Maskininlärning har visat en exceptionell förmåga att lösa komplexa uppgifter inom en rad olika områden. Framsteg inom hårdvaruacceleratorer har möjliggjort implementeringen av maskininlärningsmodeller på edge-enheter, vilket underlättar realtidsapplikationer för AI i resursbegränsade system. Nya acceleratorer har i allt högre grad anammat Network-on-Chip (NoC) arkitekturer för att stödja massiv datakommunikation inom storskaliga processorelementmatriser. Dock blir det, i takt med att komplexiteten hos dessa acceleratorer ökar, allt viktigare att utforska designrymden effektivt innan hårdvaruprototyptillverkning. Dessutom kvarstår utmaningen att uppnå hög flexibilitet och effektivitet över olika maskininlärningsarbetslaster, särskilt inom edge computing.
För att hantera dessa problem utforskar vi både arkitektursidan och applikationssidan. För det första introducerar vi ett cykelnoggrant simuleringsverktyg för NoC-baserade djupa neurala nätverks (DNN) acceleratorer. Denna simulator möjliggör snabb och exakt utvärdering av inferenseffektivitet genom att undersöka designparametrar. Genom att tillhandahålla detaljerad prestandaspårning av systembeteende underlättar simulatorn optimeringen av DNN-inferenseffektivitet, vilket kan minska tiden och kostnaden för hårdvaruprototyptillverkning. Därefter fokuserar vi på nya arkitektoniska lös\-ningar för NoC-baserade DNN-acceleratorer, där vi utnyttjar in-netverksbear\-betningstekniker för att förbättra end-to-end-latens och resursutnyttjande. Två nyckelmetoder föreslås: en "activation-in-network" design som avlastar icke-linjära operationer till NoC samt en "pooling on-the-go" design som minimerar kommunikationsöverhead för pooling-lager. Dessa designlösningar uppvisar betydande förbättringar i bearbetningseffektivitet jämfört med befintliga NoC-baserade acceleratorarkitekturer, samtidigt som de bibehåller skalbarhet och anpassningsförmåga för olika DNN-arbetslaster.
Den tredje delen undersöker tillämpningen av maskininlärning i inbäddade sensorsystem, med fokus på underbensproteser. Ett bärbart tryckmätningssys\-tem utvecklas för att samla in och analysera tryckdata inom proteshylsan. Två maskininlärningsapplikationer föreslås för att lösa deluppgifter inom området för komfortabel proteshylsdesign. En klusterbaserad metod utvecklas för att optimera sensordistribution genom att minska redundans samtidigt som dataintegriteten bibehålls. En gångfasigenkänningsmetod som utnyttjar flera dolda Markovmodeller och Gaussiska mixmodeller utvecklas. Den föreslagna metoden för gångigenkänning uppnår hög noggrannhet och beräkningsmässig effektivitet, vilket överträffar konventionella tekniker.
Genom att hantera utmaningarna inom NoC-baserad acceleratorutformning och maskininlärningsapplikationer för inbäddade system överbryggar vi klyftan mellan hårdvaruoptimering och praktisk implementering. Dessa tekniker banar väg för framtida framsteg inom inbäddad intelligens.