Tiny Machine Learning (TinyML) bridges the gap between advanced Machine Learning (ML) capabilities and resource-constrained edge devices, facilitating on-device data processing to enhance privacy, reduce latency, and improve energy efficiency. This thesis investigates the potential of dynamic quantization for optimizing neural network architectures to function efficiently within TinyML frameworks, specifically targeting image classification tasks. The research focuses on developing an instance-aware dynamically quantized architecture, which adjusts the bit-width of each layer based on input complexity during inference. By leveraging a lightweight bit-controller network, the proposed architecture dynamically selects the optimal precision for each layer, balancing computational load and accuracy. This method contrasts with static and uniform quantization approaches, offering improved efficiency and performance by minimizing memory usage and computational overhead. Experimental evaluations demonstrate the effectiveness of the proposed solution on standard datasets, achieving significant reductions in Bit-FLOPs and memory footprint while maintaining competitive accuracy.

Il Tiny Machine Learning (TinyML) rappresenta il ponte tra il Machine Learning (ML) e i dispositivi edge con risorse limitate, permettendo l'elaborazione dei dati direttamente sul dispositivo migliorando privacy, riducendo la latenza e aumentando l'efficienza energetica. Questa tesi esplora il potenziale della quantizzazione dinamica per ottimizzare le architetture delle reti neurali affinché funzionino in modo efficiente in contesti TinyML, con un focus particolare sui compiti di classificazione delle immagini. La ricerca si focalizza sullo sviluppo di un'architettura quantizzata dinamicamente e sensibile all'input, che adatta la rappresentazione dei bit di ciascun livello in funzione della complessità dell'input stesso. Grazie all'utilizzo di un bit-controller, una piccola rete a supporto della principale, l'architettura proposta seleziona dinamicamente la precisione ottimale per ciascun livello, bilanciando il carico computazionale e la precisione. Questo approccio, rispetto ai metodi di quantizzazione statica e uniforme, offre maggiore efficienza e prestazioni migliori, riducendo al minimo il sovraccarico computazionale con un aumento trascurabile dell'uso della memoria. Le valutazioni sperimentali dimostrano l'efficacia della soluzione proposta su dataset standard, ottenendo significative riduzioni nei Bit-FLOPs mantenendo al contempo una accuratezza competitiva.

Dynamic quantization of CNN layers at run-time: an efficient approach for real-time inference

Fornasari, Luca
2023/2024

Abstract

Tiny Machine Learning (TinyML) bridges the gap between advanced Machine Learning (ML) capabilities and resource-constrained edge devices, facilitating on-device data processing to enhance privacy, reduce latency, and improve energy efficiency. This thesis investigates the potential of dynamic quantization for optimizing neural network architectures to function efficiently within TinyML frameworks, specifically targeting image classification tasks. The research focuses on developing an instance-aware dynamically quantized architecture, which adjusts the bit-width of each layer based on input complexity during inference. By leveraging a lightweight bit-controller network, the proposed architecture dynamically selects the optimal precision for each layer, balancing computational load and accuracy. This method contrasts with static and uniform quantization approaches, offering improved efficiency and performance by minimizing memory usage and computational overhead. Experimental evaluations demonstrate the effectiveness of the proposed solution on standard datasets, achieving significant reductions in Bit-FLOPs and memory footprint while maintaining competitive accuracy.
SHALBY, HAZEM
ING - Scuola di Ingegneria Industriale e dell'Informazione
16-lug-2024
2023/2024
Il Tiny Machine Learning (TinyML) rappresenta il ponte tra il Machine Learning (ML) e i dispositivi edge con risorse limitate, permettendo l'elaborazione dei dati direttamente sul dispositivo migliorando privacy, riducendo la latenza e aumentando l'efficienza energetica. Questa tesi esplora il potenziale della quantizzazione dinamica per ottimizzare le architetture delle reti neurali affinché funzionino in modo efficiente in contesti TinyML, con un focus particolare sui compiti di classificazione delle immagini. La ricerca si focalizza sullo sviluppo di un'architettura quantizzata dinamicamente e sensibile all'input, che adatta la rappresentazione dei bit di ciascun livello in funzione della complessità dell'input stesso. Grazie all'utilizzo di un bit-controller, una piccola rete a supporto della principale, l'architettura proposta seleziona dinamicamente la precisione ottimale per ciascun livello, bilanciando il carico computazionale e la precisione. Questo approccio, rispetto ai metodi di quantizzazione statica e uniforme, offre maggiore efficienza e prestazioni migliori, riducendo al minimo il sovraccarico computazionale con un aumento trascurabile dell'uso della memoria. Le valutazioni sperimentali dimostrano l'efficacia della soluzione proposta su dataset standard, ottenendo significative riduzioni nei Bit-FLOPs mantenendo al contempo una accuratezza competitiva.
File allegati
File Dimensione Formato  
Dynamic_Quantization_thesis.pdf

accessibile in internet solo dagli utenti autorizzati

Dimensione 5.61 MB
Formato Adobe PDF
5.61 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/223765