Distributionally Robust Optimization, Control and Games
Tid: Fr 2025-01-31 kl 10.00
Plats: Harry Nyquist, Malvinas väg 10, Stockholm
Videolänk: https://kth-se.zoom.us/j/69761970586
Språk: Engelska
Ämnesområde: Elektro- och systemteknik
Licentiand: Zifan Wang , Reglerteknik
Granskare: Associate professor Peyman Mohajerin Esfahani, Delft University of Technology, Delft, The Netherlands
Huvudhandledare: Professor Karl H. Johansson, Reglerteknik; Professor Michael M. Zavlanos, Thomas Lord Department of Mechanical Engineering and Materials Science, Duke University, 144 Hudson Hall Campus, Durham, NC 27708, USA
QC 20250108
Abstract
I en era av datadrivet beslutsfattande ställs verkliga tillämpningar ofta inför osäkerheter som uppstår från brus, miljöförändringar och adversariala störningar. Dessa utmaningar kan försämra modellens prestanda, leda till dåliga beslut och introducera oförutsedda risker. Denna avhandling hanterar dessa frågor genom att utveckla robusta beslutsramverk för optimering, styrning och spel, med särskilt fokus på distributionell robusthet och riskavert inlärning under osäkra datadistributioner. Den består av fyra delar.
I den första delen undersöker vi outlier-robusta problem inom distributionell robust optimering (DRO), där datadistributionerna är utsatta för störningar i form av Wasserstein-perturbationer och outlier-kontaminering. Vi föreslår ett nytt DRO-ramverk som utnyttjar ett avstånd inspirerat av Obalanserad Optimal Transport (UOT). Detta UOT-baserade avstånd inför en mjuk penaliseringskomponent istället för traditionella hårda begränsningar, vilket möjliggör konstruktionen av tvetydighetsmängder som är mer robusta mot outliers. Under lämpliga jämnhetsvillkor fastställer vi stark dualitet för den föreslagna DRO-formuleringen. Dessutom presenterar vi en beräkningsmässigt effektiv formulering med Lagrangestraff och visar att stark dualitet även gäller här. Vi presenterar empiriska resultat som visar att vår metod erbjuder förbättrad robusthet mot outliers och är beräkningsmässigt mindre krävande.
I den andra delen fokuserar vi på beslutberoende optimeringsproblem, där datadistributionerna förändras som svar på besluten och påverkar både målfunktionen och linjära begränsningar. Vi fastställer ett tillräckligt villkor för existensen av en begränsad jämviktspunkt, där distributionerna förblir oförändrade vid omträning. Vi föreslår dual ascent- och projicerade gradientnedstigningsalgoritmer, båda med teoretiska konvergensgarantier, som arbetar i respektive duala och primala rum. Vidare undersöker vi sambandet mellan jämviktspunkten och optimalpunkten för det beslutberoende optimeringsproblemet med begränsningar.
I den tredje delen studerar vi riskavert inlärning i online konvexa spel genom att använda Conditional Value at Risk (CVaR) som riskmått. För feedbackinställningen med nollte ordningen, där agenter endast har tillgång till kostnadsvärden för sina valda handlingar, föreslår vi riskaverta inlärningsalgoritmer med provåteranvändning och variansreduktion. För feedbackinställningen med första ordningen, där agenter får gradientinformation, utvecklar vi en riskavert inlärningsalgoritm baserad på Value at Risk-estimat. Trots bias i gradientestimat för CVaR, fastställer vi konvergensgarantier med hög sannolikhet för alla föreslagna algoritmer.
I den sista delen utforskar vi distributionsförstärkt förstärkningsinlärning (DRL) i problem med linjära kvadratiska regulatorer (LQR). En nyckelutmaning i DRL är utformningen av representationen för returdistributionen vid policyutvärdering. För diskonterad LQR-kontroll härleder vi ett slutet uttryck för den stokastiska returen och analyserar dess egenskaper, inklusive variationsgränser, känslighet och fel vid ändlig approximation. För okända modeller introducerar vi en modellfri metod för att uppskatta returdistributionen med garantier för provkomplexitet. Vi utvidgar också dessa resultat till partiellt observerbara linjära system. Med hjälp av den inlärda returdistributionen föreslår vi en policy-gradientalgoritm av nollte ordningen för riskavers LQR med CVaR som riskmått.