Approximate Solution Methods to Optimal Control Problems via Dynamic Programming Models
Tid: Må 2021-12-20 kl 10.00
Plats: Q2, Malvinas väg 10, Stockholm
Språk: Engelska
Ämnesområde: Elektro- och systemteknik Optimeringslära och systemteori
Licentiand: Yuchao Li , Reglerteknik
Granskare: Associate Professor Pontus Giselsson, Department of Automatic Control, Lund University
Huvudhandledare: Professor Jonas Mårtensson, Reglerteknik; Professor Karl H. Johansson, Reglerteknik
QC 20211129
Abstract
Teorin om optimal reglering har en lång historia och breda tillämpningsområden.I denna avhandling, som motiveras av att få insikter genom att förena och dra nyttaav den goda möjligheten att generera data, introduceras några suboptimala systemvia abstrakta modeller för dynamisk programmering.I vårt första bidrag betraktar vi ett deterministiskt optimalt regleringsproblemmed oändlig horisont och icke-negativa stegkostnader. Vi hämtar inspiration frånmodellprediktiv reglering med inlärning, som är utformad för system med kontinuerligdynamik och iterativa uppgifter, och föreslår en utrullningsalgoritm som bygger påsamplade data som genereras av en viss baspolicy. Den föreslagna algoritmen byggerpå idéer om värde- och policyiteration. Den är tillämpningsbar för deterministiskaproblem med godtyckliga tillstånds- och kontrollrum samt för system med godtyckligdynamik. Slutligen kan den utvidgas till problem med trajektoriebegränsningar ochen struktur med flera agenter.Dessutom används abstrakta modeller för dynamisk programmering för attanalysera lambdapolicyiteration med randomiseringsalgoritmer. Vi betraktar merspecifikt kontraktiva modeller med oändliga strategier. Vi visar att lambdaoperatorns välbestämdhet spelar en central roll i algoritmen. Det är känt att operatorn ärväldefinierad för problem med ändliga tillstånd, men vår analys visar att den ocksåär väldefinierad för de studerade kontraktiva modellerna med oändliga tillstånd.På samma sätt är det känt att den algoritm vi analyserar konvergerar för problemmed ändliga strategier, men vi identifierar de villkor som krävs för att garanterakonvergens med sannolikhet ett när policyrummet är oändligt, oberoende av antalettillstånd. Med hjälp av analysen exemplifierar vi en datadriven approximativ implementering av algoritmen för uppskattning av optimala kostnader för begränsadelinjära och icke-linjära regleringsproblem. Numeriska resultat visar på potentialen iatt använda denna metod i praktiken.