To predict or not to predict ? A simulation framework for assessing the impact of QoE prediction errors on the detection of under-performing cells in mobile networks

With the exponential growth of the number of cellular connections and considering the upcoming 5G technology, network operators have to invest in all the network domains such to provide to their customers the best service they can achieve at limited costs. In order to avoid economic losses, operators aim also at minimizing the number of churners, i.e. customers which stop their subscription and move to another operator. For this purpose, operators have to detect potentially dissatisfied users, measuring users satisfaction by means of their Quality of Experience (QoE). It is interesting to understand how Machine Learning models can be leveraged in order to predict users' QoE rather than directly measuring it through the collection of users' feedback regarding the experienced cellular service. In this thesis project, we propose an anomaly detection framework, where we consider under-performing network sites as the anomalies to be detected. Supposing that users that visit under-performing sites have bad service experiences, the aim is to understand whether it is possible to recognize the causes of users dissatisfaction investigating the activity that dissatisfied users have had in the network. The framework is tested on the LTE network of a big Italian cellular operator working in the city of Milan. We will consider three different users populations of sizes 1k, 10k and 100k users that move throughout the network according to a given mobility model for a simulation period of 1 month. We will simulate the delivery of satisfaction surveys to different groups users (i.e., Ground Truth (GT) users), according to two survey delivery strategies, namely: Random Delivery, where surveys are delivered at random, and Optimized Delivery, where surveys are delivered such to maximize the coverage of the network, i.e. the number of network sites visited by at least 3 different GT users. We will then assess the impact of the introduction of machine learning algorithms for predicting the satisfaction of users who are not answering to surveys with respect to the anomaly detection performance. Results showed that i) a network coverage optimized surveys delivery increases the anomaly detection accuracy up to 14% with respect to the case of random delivery; ii) the smaller the population size the higher the advantage coming from the prediction of users' satisfaction, e.g. for a population of 1k users, including the predictions, we improve the detection accuracy by 22% with respect to the case in which only GT satisfaction is used; iii) there exists a population size threshold, which depends on the network coverage, beyond which making detection only considering GT satisfaction leads to higher performance; iv) the higher the number of GT users, the higher the anomaly detection accuracy, which in the largest scenario (100k users, 1k GT users) is above 80%.

Con la crescita esponenziale della connettività di rete e considerando l'arrivo imminente della tecnologia 5G, gli operatori devono investire in tutti i domini di rete, in modo da fornire ai propri clienti il miglior servizio possibile con costi limitati. Tuttavia, al fine di evitare perdite economiche, devono anche ridurre al minimo il numero di churners, vale a dire i clienti che interrompono la sottoscrizione e cambiano operatore. Pertanto, gli operatori devono essere in grado di rilevare utenti potenzialmente insoddisfatti prima che decidano di interrompere la loro sottoscrizione: l'unico modo per monitorare la soddisfazione degli utenti è misurare la loro qualità dell'esperienza (QoE). È interessante capire come i modelli di Machine Learning possano essere sfruttati per predire la QoE degli utenti, piuttosto che misurarla direttamente attraverso la raccolta di feedback riguardo la qualità della rete sperimentata da essi. In questo progetto di tesi, proponiamo un framework di rilevamento delle anomalie, in cui consideriamo come anomalie da rilevare i siti con prestazioni insufficienti. Supponendo che gli utenti che visitano siti con prestazioni scadenti abbiano esperienze di servizio di bassa qualità, l'obiettivo è capire se è possibile riconoscere le cause dell'insoddisfazione degli utenti, osservando la mobilità degli utenti insoddisfatti nella rete. Il framework è stato testato sulla rete LTE di un grande operatore cellulare italiano che lavora nella città di Milano. Prenderemo in considerazione tre diverse popolazioni di utenti di dimensioni 1k, 10k e 100k, i quali si spostano nella rete secondo un determinato modello di mobilità, per un periodo di simulazione di 1 mese. Simuleremo inoltre la consegna di sondaggi di soddisfazione a utenti di diversi gruppi (ovvero, utenti di Ground Truth (GT)), seguendo due differenti strategie di consegna del sondaggio: la consegna casuale, in cui i sondaggi vengono consegnati a caso, e la consegna ottimizzata, in cui i sondaggi sono consegnati in modo tale da massimizzare la copertura della rete, definita come la percentuale di siti della rete visitati da almeno 3 diversi utenti di GT. Valuteremo quindi l'impatto dell'introduzione di algoritmi di Machine Learning per predire la soddisfazione degli utenti che non rispondono ai sondaggi rispetto alle prestazioni di rilevamento delle anomalie. I risultati hanno mostrato che i) una consegna di sondaggi che ha l'obiettivo di massimizzare la copertura di rete aumenta l'accuratezza del rilevamento di anomalie fino al 14% rispetto al caso di consegna casuale; ii) minore è la dimensione della popolazione, maggiore è il vantaggio che deriva dalla predizione della soddisfazione degli utenti, per esempio, per una popolazione di 1k utenti, includendo le predizioni, l'accuratezza del rilevamento di anomalie migliora del 22% rispetto al caso in cui viene utilizzata solo la soddisfazione di GT; iii) esiste una soglia di dimensione della popolazione, che dipende dalla copertura della rete, oltre la quale effettuare il rilevamento considerando solo la soddisfazione degli utenti di GT porta a prestazioni più elevate; iv) maggiore è il numero di utenti di GT, maggiore è l'accuratezza del rilevamento delle anomalie, che nello scenario più ampio (100k utenti, 1k utenti di GT) è superiore all'80%.