Explainable Reinforcement Learning for Mobile Network Optimization
Tid: Fr 2025-02-21 kl 15.00
Plats: Harry Nyquist, Malvinas väg 10, Stockholm
Videolänk: https://kth-se.zoom.us/j/66674834407
Språk: Engelska
Ämnesområde: Elektro- och systemteknik
Licentiand: Franco Ruggeri , Reglerteknik
Granskare: Professor Kerstin Bach, Norwegian University of Science and Technology, Trondheim, Norway
Huvudhandledare: Professor Karl H. Johansson, Reglerteknik; Adjunct professor Rafia Inam, Mekatronik och inbyggda styrsystem
QC 20250129
Abstract
Den ökande komplexiteten hos mobila nätverk har drivit på behovet av automatiserade optimeringsmetoder, där Reinforcement Learning (RL) framstår som en lovande datadriven teknik för att kontrollera nätverksparametrar. RL-system fungerar dock ofta som svarta lådor som saknar den tolkningsbarhet och transparens som krävs av mobilnätsoperatörer och AI-utvecklare för att kunna lita på, övervaka och förbättra deras beteende. Denna brist utgör betydande utmaningar, särskilt inom telekommunikationsområdet, där det är kritiskt att säkerställa överensstämmelse med operativa mål och upprätthålla pålitlig nätverksprestanda.
Den här avhandlingen undersöker det framväxande området Explainable Reinforcement Learning (XRL), med fokus speciellt på dess tillämpning för mobilnätsoperatörer. I samband med single-agent RL utvärderar vi två toppmoderna XRL-tekniker för optimeringsproblemet Remote Electrical Tilt (RET), där lutningen av varje antenn måste kontrolleras för att optimera täckning och kapacitet. Dessa metoder tar itu med två distinkta tolkbarhetsutmaningar i RL: (i) förstå tillstånds-handlingsmappningen som bestäms av en RL-policy och (ii) att förklara det långsiktiga målet för en RL-agent. Dessa utvärderingar belyser potentialen och begränsningarna hos befintliga XRL-metoder när de tillämpas på ett simulerat mobilnät.
För att ta itu med en betydande lucka i litteraturen om single-agent XRL, utvecklar vi en ny algoritm, Temporal Policy Decomposition (TPD), som förklarar RL-handlingar genom att förutsäga deras resultat i kommande tidssteg. Denna metod ger en tydlig bild av en agents förväntade beteende från ett givet tillstånd genom att generera insikter för individuella tidssteg. Dessa tidsmedvetna förklaringar ger en omfattande förståelse för beslutsprocessen som tar hänsyn till RL:s sekventiella karaktär.
Vi fokuserar sedan på system med flera agenter och utvecklar en utrullningsbaserad algoritm för att uppskatta lokala Shapley-värden (LSV), som kvantifierar individuella agentbidrag i specifika stater. Denna metod identifierar på ett tillförlitligt sätt agentbidrag även i scenarier som involverar undertränade eller suboptimala agenter, vilket gör den till ett värdefullt verktyg för att övervaka och diagnostisera kooperativa multiagentsystem.
Dessa bidrag representerar ett steg mot en holistisk förklaringsram för RL i mobilnät, som kombinerar enagent- och multiagentperspektiv. Genom att ta itu med centrala tolkningsutmaningar, utrustar denna forskning MNO:er och AI-utvecklare med praktiska tekniker för att lita på, felsöka, övervaka, och förbättra RL-modeller. Dessutom bidrar det till att säkerställa beredskap för potentiellt kommande regulatoriska krav, vilket bidrar till det bredare målet att främja pålitlig AI inom telekommunikation.