Predictive analysis of deep neural networks in Cloud-edge computing continuum

In the last decade, the use of deep neural networks within intelligent applications had steadily increased while IoT and mobile devices had played a fundamental role in this development. Due to the initial technical limitations of these devices, the computational paradigm adopted was based on a cloud-only deployment approach, a model based on the centralization of the computing capacity on the cloud server while the flow of raw data was generated by mobile devices and sent to the service provider. In the last few years, the growing power of these devices and the progress of mobile communication technologies led to a new model: the computing continuum. In this scenario, the computational collaboration between mobile devices and cloud servers opens up new possibilities for development. Thanks to the use of mobile device resources, it is possible to reduce both the latency of the service and the load on the server-side and improve the privacy of the data exchanged. The goal of this thesis is to explore the opportunities provided by the computing continuum to implement neural networks for image recognition, trying to obtain the best trade-off between the performance and privacy of generic pre-trained neural networks on different mobile devices. To achieve this objective we developed the DiNeSys distributed system which, exploiting the potentiality of the Apache Thrift and Tensorflow frameworks, is able to create a testing environment able to automate an application profiling in order to study its performance. In this distributed environment we have tested different pairs of neural networks, generated by the splitting of a single pre-trained neural network into two consecutive sub-networks where the first sub-network is deployed on the mobile client while the second one on the server, thus moving a portion of the computational load near the sensor on the mobile node. Finally, machine learning models have been developed to predict the performance of the two sub-networks, providing useful insights to study the computational trade-offs

Nell’ultima decade l’utilizzo di deep neural network all’interno di applicazioni intelligenti ha avuto un successo crescente e i dispositivi mobili e IoT hanno avuto un ruolo fondamentale in questo sviluppo. A causa delle limitazioni tecniche di questi device, inizialmente il paradigma computazionale si è indirizzato sullo sviluppo di un approccio cloud-only, approccio basato sulla concentrazione della computazione sul server cloud e sul flusso dei dati non elaborati dai dispositivi mobili al provider del servizio. Negli ultimi anni la crescente potenza di questi device e il progresso delle tecnologie di comunicazione mobili ha dato spazio ad un nuovo modello: il computing continuum. In questo scenario, la collaborazione computazionale tra i dispositivi mobili e i server in cloud apre a nuovi possibilità di sviluppo. Grazie all’utilizzo delle risorse dei dispositivi mobili è possibile ridurre sia la latenza del servizio sia il carico sul server e migliorare la privacy sui dati scambiati. Lo scopo di questa tesi è di esplorare le opportunità offerte dal computing continuum per implementare reti neurali atte al riconoscimento delle immagini, cercando di ottenere il miglior trade-off tra le performance e la privacy di generiche reti neurali pre-allenate su differenti dispositivi mobili. Per raggiungere tale scopo abbiamo sviluppato il sistema distribuito DiNeSys che, sfruttando le potenzialità del framework Apache Thrift e di Tensorflow, è in grado di creare un ambiente di testing per effettuare in modo automatizzato la profilazione delle applicazioni per studiarne le prestazioni. In questo ambiente distribuito abbiamo testato differenti coppie di reti neurali, generate dal frazionamento di una singola rete neurale pre-allenata in due parti consecutive e allocando la prima sottorete al client mobile e la seconda sottorete al server, muovendo in questo modo una porzione del carico computazionale vicino al sensore sul nodo mobile. Infine, sono stati sviluppati modelli di machine learning per effettuare la predizione delle prestazioni delle due sottoreti fornendo informazioni utili per valutare i compromessi computazionali.