Neural network splitter : optimal decomposition of a neural network and its distribution on multiple microcontrollers

Biblioteche e Archivi
POLITesi - Archivio digitale delle tesi di laurea e di dottorato

The deployment of Neural Network (NN) models on low-power and resource-constrained devices represents a critical bottleneck in the development of intelligent and autonomous Internet of Things (IoT) systems due to the aggressive computational and memory constraints. For this reason, Machine Learning (ML) solutions addressing tiny devices must be designed having in mind constraints on memory and processing capability characterizing such devices. In this thesis, we introduce a novel design methodology based on a distributed approach, which aims at automatically partitioning the execution of a NN over multiple heterogeneous tiny devices. Such a methodology is formalized as an optimization problem where either the inference latency is minimized or the throughput is maximized, within the devices’ memory and computing capabilities. The methodology is evaluated over different NN architectures and microcontrollers (MCUs) by using three algorithms, namely Full Search (FS), Dichotomic Search (DS), and Branch-and-Bound (B&B). The obtained results showed that the B&B outperformed the others as it was always able to find the optimal solution in the lowest number of computing steps. With this work, we aim at enabling novel ML solutions which offer low decisionlatency, autonomy, and high energy efficiency.

L’implementazione di una rete neurale (NN) su dispositivi a bassa potenza e con risorse limitate rappresenta un problema critico nello sviluppo di sistemi IoT intelligenti ed autonomi a causa degli aggressivi vincoli computazionali e di memoria. Per questo motivo, le soluzioni di Machine Learning (ML) rivolte a piccoli dispositivi devono essere progettate tenendo presente i vincoli legati alla memoria e alla capacità di elaborazione che caratterizzano tali dispositivi. In questa tesi, introduciamo una nuova metodologia di progettazione basata su un approccio distribuito, il quale ha come obiettivo partizionare automaticamente l’esecuzione di una NN su più dispositivi eterogenei molto limitati. Tale metodologia è formalizzata come un problema di ottimizzazione in cui o la latenza di inferenza è minimizzata oppure il throughput è massimizzato, tenendo in considerazione le capacità di memoria e di calcolo dei dispositivi. La metodologia è valutata su diverse architetture di reti neurali e su microcontrollori (MCUs) utilizzando tre algoritmi, vale a dire il Full Search (FS), il Dichotomich Search (DS) ed il Branch-and-Bound (B&B). I risultati ottenuti hanno mostrato che il B&B ha performato in modo di gran lunga migliore rispetto agli altri, in quanto è stato sempre in grado di trovare la soluzione ottima nel minor numero di iterazioni. Con questo lavoro, cerchiamo di proporre nuove soluzioni di ML che offrano una bassa decision-latency, autonomia ed un’elevata efficienza energetica.

Neural network splitter : optimal decomposition of a neural network and its distribution on multiple microcontrollers

Santamaria, Andrea

2020/2021

Abstract

The deployment of Neural Network (NN) models on low-power and resource-constrained devices represents a critical bottleneck in the development of intelligent and autonomous Internet of Things (IoT) systems due to the aggressive computational and memory constraints. For this reason, Machine Learning (ML) solutions addressing tiny devices must be designed having in mind constraints on memory and processing capability characterizing such devices. In this thesis, we introduce a novel design methodology based on a distributed approach, which aims at automatically partitioning the execution of a NN over multiple heterogeneous tiny devices. Such a methodology is formalized as an optimization problem where either the inference latency is minimized or the throughput is maximized, within the devices’ memory and computing capabilities. The methodology is evaluated over different NN architectures and microcontrollers (MCUs) by using three algorithms, namely Full Search (FS), Dichotomic Search (DS), and Branch-and-Bound (B&B). The obtained results showed that the B&B outperformed the others as it was always able to find the optimal solution in the lowest number of computing steps. With this work, we aim at enabling novel ML solutions which offer low decisionlatency, autonomy, and high energy efficiency.

Scheda breve

Scheda completa

	Relatore
	
			MARCON, MARCO
		
	Correlatore/i
	
			MONTARULI, BIAGIO
PAU, DANILO PIETRO
		
	Scuola / Dip.
	
			ING  - Scuola di Ingegneria Industriale e dell'Informazione
		
	Data
	
			28-apr-2022
		
	Anno accademico
	
			2020/2021
		
	Abstract in italiano
	
			L’implementazione di una rete neurale (NN) su dispositivi a bassa potenza e con risorse limitate rappresenta un problema critico nello sviluppo di sistemi IoT intelligenti ed autonomi a causa degli aggressivi vincoli computazionali e di memoria. Per questo motivo, le soluzioni di Machine Learning (ML) rivolte a piccoli dispositivi devono essere progettate tenendo presente i vincoli legati alla memoria e alla capacità di elaborazione che caratterizzano tali dispositivi. In questa tesi, introduciamo una nuova metodologia di progettazione basata su un approccio distribuito, il quale ha come obiettivo partizionare automaticamente l’esecuzione di una NN su più dispositivi eterogenei molto limitati. Tale metodologia è formalizzata come un problema di ottimizzazione in cui o la latenza di inferenza è minimizzata oppure il throughput è massimizzato, tenendo in considerazione le capacità di memoria e di calcolo dei dispositivi. La metodologia è valutata su diverse architetture di reti neurali e su microcontrollori (MCUs) utilizzando tre algoritmi, vale a dire il Full Search (FS), il Dichotomich Search (DS) ed il Branch-and-Bound (B&amp;B). I risultati ottenuti hanno mostrato che il B&amp;B ha performato in modo di gran lunga migliore rispetto agli altri, in quanto è stato sempre in grado di trovare la soluzione ottima nel minor numero di iterazioni. Con questo lavoro, cerchiamo di proporre nuove soluzioni di ML che offrano una bassa decision-latency, autonomia ed un’elevata efficienza energetica.
		
	Appare nelle tipologie:
	
			Tesi di laurea Magistrale

File allegati

File	Dimensione	Formato
2022_04_Santamaria_01.pdf Open Access dal 01/04/2023 Descrizione: Executive Summary Dimensione 5.99 MB Formato Adobe PDF Visualizza/Apri	5.99 MB	Adobe PDF	Visualizza/Apri
2022_04_Santamaria_02.pdf Open Access dal 01/04/2023 Descrizione: Testo della tesi Dimensione 9.48 MB Formato Adobe PDF Visualizza/Apri	9.48 MB	Adobe PDF	Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/186143