With the evolution of broadband mobile networks towards LTE and beyond, the support for the Internet and Internet based services is growing. Self Organizing Network (SON) functionalities intend to ...optimize the network performance for the improved user experience while at the same time reducing the network operational cost. This paper proposes a Reinforcement Learning (RL) based framework to improve throughput of the mobile users. The problem of spectral efficiency maximization is modeled as co-operative Multi-Agent control problem between the neighbouring eNodeBs (eNBs). Each eNB has an associated agent that dynamically changes the outgoing Handover Margin (HM) to its neighbouring cells. The agent uses the RL technique of Fuzzy Q-Learning (FQL) to learn the optimal mobility parameter i.e., HM value. The learning framework is designed to operate in an environment with the variations in traffic, user positions and propagation conditions. Simulation results have shown the proposed approach improves the network capacity and user experiences in terms of throughput.
Razvoj širokopojasne mobilne mreže prema LTE mrežama uvjetuje pojačani rast internetskih servisa i usluga. Samoorganizirajuće mreže namijenjene su optimizaciji performansi mreže s ciljem poboljšanja ...korisnikovog zadovoljstva i smanjenja troškova rada. U radu se predlaže pristup zasnovan na podržanom učenju kako bi se popravila propusnost mobilnog korisnika. Problem maksimizacije spektralne učinkovitosti modelira se kao kooperativni više agentski problem upravljanje između susjednih čvorova (eNBs). Svaki čvor ima pridruženog agenta koji dinamički mijenja marginu primopredaje prema susjednim ćelijama. Agent koristi tehniku neizrazitog Q učenja (FQL) kako bi naučio optimizirati parametre mreže. Učenje je organizirano za rad u uvjetima raznovrsnog prometa, korisničkih položaja i uvjeta propagacije. Simulacijski rezultati pokazuju kako predloženi pristup poboljšava kapacitet mreže i korisnički doživljaj u smislu propusnosti mreže.
U ovom radu je predstavljen novi postupak Q-učenja kod kojega agent odluku o sljedećoj akciji donosi na osnovu korisnosti nekog budućeg stanja, a ne na osnovu trenutno optimalne akcije. ...Implementirana je komunikacija agenata u okolini koji si međusobno javljaju svoje buduće akcije što doprinosi kvalitetnijem odabiru akcija pojedinog agenta. Nova metoda nazvana je Q-učenje prema stanju n-tog koraka i dogovaranjem više agenata. Uspoređeni su rezultati testiranja ovdje predstavljenog algoritma s osnovnim QL algoritmom što je i grafički prikazano te su navedene prednosti novog algoritma. Postignuto je prosječno smanjenje od 40 % sudara tijekom postupka učenja.