The recent big data explosion has set up new challenges for companies in every sector that desire to make the most from the information they have available. Data analytics and visualization tools have been fully integrated in cloud platforms and recent breakthroughs in distributed systems have helped to overcome traditional data base technology. This work consisted on solving a specific business need regarding telecommunication services. In particular, the goal was to analyse a large amount of Wi-Fi session data, generated by clients connected to access points located in places of interest, in order to obtain analytic results such as user return frequency in a specific location, returns within a time interval from one location to another and understandable language distribution. Apache Spark, with its capabilities of executing computation and data-processing in main memory, allows to run complex analytics algorithms efficiently across a cluster of machines. A two-layer system that exploits this innovative technology was designed for the purpose of periodically computing statistics and storing results, in order to minimize the latency for on-demand aggregation and visualization of data regarding different time spans. Databricks cloud platform, developed by Spark creators, was vital for implementing the solution and displaying the obtained results in the most practical way, dividing the work in two independent applications. In addition, it allowed to test performances and monitor the application execution with different parameters, in order to understand how a real cluster should be set up to face the workload required by the amounts of data generated nowadays.
La recente esplosione dei big data ha creato nuove sfide per le aziende di ogni settore, che desiderano estrarre il maggior numero di informazioni possibile dai dati che hanno a disposizione. Gli strumenti di analisi e visualizzazione dati sono stati completamente integrati nelle piattaforme in cloud e le recenti innovazioni dei sistemi distribuiti hanno contribuito a superare le tecnologie tradizionali per le basi di dati. Questo lavoro tratta l'implementazione di una soluzione per una specifica esigenza di business riguardante servizi di telecomunicazione. In particolare, l'obiettivo era quello di analizzare una grande mole di dati provenienti da sessioni Wi-fi, generati da client connessi ad access point situati in punti di interesse, al fine di ottenere risultati analitici come la frequenza di ritorno degli utenti in un luogo specifico, il numero di ritorni entro un certo intervallo di tempo da un luogo ad un altro e la distribuzione delle lingue comprensibili. Apache Spark, con le sue capacità di eseguire calcoli e elaborare dati direttamente in memoria, consente di eseguire algoritmi complessi in modo efficiente attraverso un cluster di macchine. Un sistema a due livelli che sfrutta questa tecnologia innovativa è stato progettato per calcolare statistiche e memorizzare i risultati periodicamente, al fine di minimizzare la latenza per l'aggregazione e la visualizzazione dei dati su richiesta e riguardanti diversi intervalli di tempo. Databricks, piattaforma sviluppata dai creatori di Spark, è stata fondamentale per l'implementazione della soluzione e la visualizzazione dei risultati ottenuti nel modo più pratico possibile, suddividendo il lavoro in due applicazioni indipendenti. Inoltre, ha permesso di testare le prestazioni e monitorare l'esecuzione dell'applicazione con parametri diversi al fine di comprendere come un cluster reale dovrebbe essere impostato per affrontare il carico di lavoro richiesto dalla quantità di dati generati oggigiorno.
Big data analytics in telecommunications : a use case implementation
ZICHICHI, CHRISTIAN
2016/2017
Abstract
The recent big data explosion has set up new challenges for companies in every sector that desire to make the most from the information they have available. Data analytics and visualization tools have been fully integrated in cloud platforms and recent breakthroughs in distributed systems have helped to overcome traditional data base technology. This work consisted on solving a specific business need regarding telecommunication services. In particular, the goal was to analyse a large amount of Wi-Fi session data, generated by clients connected to access points located in places of interest, in order to obtain analytic results such as user return frequency in a specific location, returns within a time interval from one location to another and understandable language distribution. Apache Spark, with its capabilities of executing computation and data-processing in main memory, allows to run complex analytics algorithms efficiently across a cluster of machines. A two-layer system that exploits this innovative technology was designed for the purpose of periodically computing statistics and storing results, in order to minimize the latency for on-demand aggregation and visualization of data regarding different time spans. Databricks cloud platform, developed by Spark creators, was vital for implementing the solution and displaying the obtained results in the most practical way, dividing the work in two independent applications. In addition, it allowed to test performances and monitor the application execution with different parameters, in order to understand how a real cluster should be set up to face the workload required by the amounts of data generated nowadays.File | Dimensione | Formato | |
---|---|---|---|
2017_4_Zichichi.pdf
solo utenti autorizzati dal 31/03/2020
Descrizione: Thesis text
Dimensione
5.81 MB
Formato
Adobe PDF
|
5.81 MB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/133183