Genom att använda domänkunskap vill industridoktoranden Albin Larsson Forsberg skapa ett mer intelligent nätverk och kunna garantera att det är säkert och går att lita på. Vägen dit går genom att använda begränsad reinforcement learning, en typ av maskininlärning, för att kunna kontrollera olika delar av nätverket.
Under de senaste decennierna har efterfrågan på mobilnät som erbjuder bättre och stabilare tjänstekvalitet ökat. Anledningen är en högre användning av nätverksenheter, som mobiltelefoner och datorer, samt den snabbt ökande digitaliseringen.
– För att mobilnäten ska kunna hantera en sådan efterfrågan behöver de kunna fungera med en högre grad av automation. Nätverksautomatisering kommer att göra det möjligt att tillfredsställa användarnas och industriernas uppkopplingsbehov med en bra kvalitet och kommer att ha stor inverkan på oss alla, förklarar Albin Larsson Forsberg.
Han är anställd på Ericsson och har fått möjligheten att genomföra ett industridoktorandprojekt på Avdelningen för robotik, perception och lärande på KTH.
– Målet för mitt projekt är att kunna garantera driftsäkerheten i ett nätverk som använder reinforcement learning för att öka automatiseringsgraden i mobilnäten. Bakgrunden är att många empiriska studier har visat att system som baseras på reinforcement learning levererar bättre resultat, en högre kvalitet för slutanvändarna, jämfört med de som utgår från olika modeller, förklarar han.
Hans projekt Begränsad reinforcement learning för nätverkskontroll är knutet till kompetenscentret TECoSA. Inom centret samarbetar KTH och 13 industripartner med syfte att tillhandahålla metoder, verktyg och teorier för att bygga säkra och förutsägbara system som baseras på edge computing.
Oräkneligt antal interaktioner
Datahanteringen i dagens nätverk bygger på modeller som byggts av datanalytiker baserat på ett urval av insamlade data. Det Albin Larsson Forsberg vill göra är att skapa ett nytt matematiskt ramverk som med hjälp av ett begränsat reinforcement learning-system gör det möjligt för nätverken att fatta beslut på egen hand.
– Vårt telekommunikationssystem är baserat på ett antal basstationer som kommunicerar med enheter, till exempel mobiltelefoner. Ett problem är dock att det existerar en väldigt stor mängd basstationer som kan interagera med varandra vilket leder till ett oräkneligt antal potentiella interaktioner. Det gör i sin tur att det är svårt att garantera säkerheten i ett sådant system då alla potentiella interaktioner inte går att hantera och det därför kan uppstå glapp i nätverket som minskar tillförlitligheten.
Gör ett antal förenklande antaganden
Det är av den anledningen dagens nätverk fortfarande utgår från modeller. Problemet med modellerna är dock att de är just modeller och inte baseras på reella data inom systemet. Det finns mycket mer information i nätverken som skulle kunna användas för att förbättra prestandan i nätverken ytterligare om de kunde hanteras direkt i nätverken.
– För att hitta sätt att göra det testar vi att använda ett begränsat reinforcement learning-system som bygger på ett antal antaganden för att göra problematiken med de oräkneliga interaktionerna i nätverken mer hanterbara.
Positiva resultat i halvtid
I februari gav han sitt halvtidsseminarium i projektet och presenterade då de resultat han uppnått hittills.
– Ett antagande jag har gjort är att utgå från att en användare, exempelvis en person med en smartphone, bara påverkas av två basstationer, ett ”parvis-antagande”. På det sättet kan vi förenkla problematiken med de många potentiella interaktionerna i nätverket väldigt mycket.
Genom att använda parvis-antagandet vill de kunna maximera de återkopplingar, rewards, som görs inom nätverken och därmed kunna förbättra nätverken.
– Jag har i mina resultat visat att parvis-antagandet fungerar och är en möjlig väg för att kunna använda begränsad reinforcement learning i nätverken.
Vill kunna garantera pålitlighet
Nästa steg blir att bevisa och garantera att ett sådant begränsat reinforcement learning-system också är helt säkert och pålitligt.
– Vi har sneglat på generativa modeller som verktyg för att kunna bevisa säkerheten, men vi får se framöver vilken väg vi kommer att ta, avslutar han.
Industridoktorandprojektet Begränsad reinforcement learning för nätverkskontroll finansieras av SSF. Akademisk handledare på Institutionen för robotik, perception och lärande på KTH är universitetslektor Jana Tumova och handledarna på Ericsson är forskningsledaren Aneta Vulgarakis Feljan, samt seniorforskaren Alexandros Nikou.
kth.se
ericsson.com/se