Quantization is a critical technique for optimizing neural networks, reducing the numerical precision of weights and activations from 32-bit floating-point to lower-bit representations; however, the standard approach of applying a uniform bit-width across all layers can cause significant performance degradation due to varying layer sensitivities. Mixed-precision quantization (MPQ) resolves this by assigning a unique bit-width to each layer, but finding the optimal configuration presents a complex combinatorial optimization problem. Current state-of-the-art methods rely on computationally expensive search algorithms or local sensitivity heuristic proxies like the Hessian, which fail to capture the cascading global effects of quantization error. In this work, we argue that the quantization sensitivity of a layer should not be measured by its local properties, but by its impact on the information flow throughout the entire network. We introduce InfoQ, a novel framework for mixed-precision quantization that is training-free in the bit-width search phase. InfoQ assesses layer importance by performing a single forward pass to measure the change in mutual information in the remaining part of the network, thus creating a global sensitivity score. This approach directly quantifies how quantizing one layer degrades the information characteristics of subsequent layers. The resulting scores are used to formulate bit-width allocation as an integer linear programming problem, which is solved efficiently to minimize total sensitivity under a given budget (e.g., model size or BitOps). Our retraining-free search phase provides a superior search-time/accuracy trade-off (using two orders of magnitude less data compared to state-of-the-art methods such as LIMPQ), while yielding up to a 1% accuracy improvement for MobileNetV2 and ResNet18 on ImageNet at high compression rates (14.00× and 10.66×)
La quantizzazione è una tecnica fondamentale per l’ottimizzazione delle reti neurali, che riduce la precisione numerica di pesi e attivazioni da rappresentazioni in virgola mobile a 32 bit a formati con un numero inferiore di bit; tuttavia, l’approccio standard di applicare una precisione uniforme a tutti gli strati può causare un degrado significativo delle prestazioni a causa delle diverse sensibilità di ogni strato. La quantizzazione a precisione mista (MPQ) risolve questo problema assegnando una larghezza di bit unica a ogni strato, ma trovare la configurazione ottimale rappresenta un complesso problema di ottimizzazione combinatoria. Gli attuali metodi allo stato dell’arte si basano su algoritmi di ricerca computazionalmente costosi o su euristiche di sensibilità locale, come l’Hessiana, che non riescono a catturare gli effetti globali a cascata dell’errore di quantizzazione. In questo lavoro, sosteniamo che la sensibilità di uno strato alla quantizzazione non debba essere misurata in base alle sue proprietà locali, ma piuttosto in base al suo impatto sul flusso di informazioni attraverso l’intera rete. Introduciamo InfoQ, un nuovo framework per la quantizzazione a precisione mista che non richiede addestramento durante la fase di ricerca della larghezza di bit. InfoQ valuta l’importanza di uno strato eseguendo una singola passata in avanti (forward pass) per misurare la variazione dell’informazione mutua nella parte rimanente della rete, creando così un punteggio di sensibilità globale. Questo approccio quantifica direttamente come la quantizzazione di uno strato degradi le caratteristiche informative degli strati successivi. I punteggi risultanti vengono utilizzati per formulare l’allocazione della larghezza di bit come un problema di programmazione lineare intera, che viene risolto in modo efficiente per minimizzare la sensibilità totale nel rispetto di un budget prestabilito (ad es., dimensione del modello o BitOps). La nostra fase di ricerca senza riaddestramento offre un compromesso superiore tra tempo di ricerca e accuratezza (utilizzando due ordini di grandezza in meno di dati rispetto a metodi allo stato dell’arte come LIMPQ), ottenendo al contempo un miglioramento dell’accuratezza fino all’1% per MobileNetV2 e ResNet18 su ImageNet a tassi di compressione elevati (14.00× e 10.66×)
InfoQ: mixed-precision quantization via global information flow
Akbulut, Mehmet Emre
2024/2025
Abstract
Quantization is a critical technique for optimizing neural networks, reducing the numerical precision of weights and activations from 32-bit floating-point to lower-bit representations; however, the standard approach of applying a uniform bit-width across all layers can cause significant performance degradation due to varying layer sensitivities. Mixed-precision quantization (MPQ) resolves this by assigning a unique bit-width to each layer, but finding the optimal configuration presents a complex combinatorial optimization problem. Current state-of-the-art methods rely on computationally expensive search algorithms or local sensitivity heuristic proxies like the Hessian, which fail to capture the cascading global effects of quantization error. In this work, we argue that the quantization sensitivity of a layer should not be measured by its local properties, but by its impact on the information flow throughout the entire network. We introduce InfoQ, a novel framework for mixed-precision quantization that is training-free in the bit-width search phase. InfoQ assesses layer importance by performing a single forward pass to measure the change in mutual information in the remaining part of the network, thus creating a global sensitivity score. This approach directly quantifies how quantizing one layer degrades the information characteristics of subsequent layers. The resulting scores are used to formulate bit-width allocation as an integer linear programming problem, which is solved efficiently to minimize total sensitivity under a given budget (e.g., model size or BitOps). Our retraining-free search phase provides a superior search-time/accuracy trade-off (using two orders of magnitude less data compared to state-of-the-art methods such as LIMPQ), while yielding up to a 1% accuracy improvement for MobileNetV2 and ResNet18 on ImageNet at high compression rates (14.00× and 10.66×)| File | Dimensione | Formato | |
|---|---|---|---|
|
2025_10_Akbulut_Executive Summary_02.pdf
accessibile in internet per tutti
Descrizione: Executive Summary of the Thesis
Dimensione
1.39 MB
Formato
Adobe PDF
|
1.39 MB | Adobe PDF | Visualizza/Apri |
|
2025_10_Akbulut_Thesis_01.pdf
accessibile in internet per tutti
Descrizione: Thesis
Dimensione
2.67 MB
Formato
Adobe PDF
|
2.67 MB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/243348