BlazePoser: a unified and ultra-lightweight neural network for face detection, facial landmark prediction, and 3D head pose estimation on microcontroller

Deploying real-time systems for face detection and 3D head pose estimation on resource- constrained microcontrollers (MCUs) presents a significant challenge due to severe mem- ory and computational limitations. A clear gap exists in the literature for an ultra- lightweight, unified model capable of performing these tasks simultaneously. While solu- tions like DirectMHP exist, their large size makes them unsuitable for MCU deployment. This work introduces BlazePoser, a novel, end-to-end neural network architecture specif- ically engineered to address these constraints. We extend the highly efficient BlazeFace backbone by designing and integrating two compact, custom pose estimation heads that utilize its multi-scale feature maps for detecting faces of varying sizes. Our methodol- ogy involves a unique training strategy based on feature-space embeddings and a hybrid classification-regression loss function to ensure robust angular prediction. To meet the strict on-device requirements, we develop a comprehensive, sequential teacher-student distillation pipeline for Quantization-Aware Fine-Tuning (QAF), which systematically partitions the model and optimizes each component with dedicated soft-label datasets. The resulting FP32 model contains only 104.1K parameters (406.7 KB) and achieves a competitive Mean Absolute Error (MAE_det) of 6.85° on AFLW2000 and 3.86° on the BIWI test set for detected faces. Our QAF pipeline successfully produces a fully INT8- quantized model of just 109.5 KB with minimal performance degradation, yielding an MAE of 7.29° and 4.70°, respectively. BlazePoser demonstrates that it is possible to per- form complex, multi-task computer vision on highly constrained hardware, successfully satisfying the strict memory and operator limitations of the target MCU and enabling a new class of real-time embedded applications.

L’implementazione di sistemi in tempo reale per il rilevamento del volto e la stima della posa della testa 3D su microcontrollori (MCU) a risorse limitate rappresenta una sfida significativa, acausadiseverivincolidimemoriaecapacitàcomputazionale. Inletteratura esiste una chiara lacuna per un modello unificato e ultra-leggero in grado di eseguire questi compiti simultaneamente. Sebbene esistano soluzioni come DirectMHP, le loro grandi dimensioni le rendono inadatte all’implementazione su MCU. Questa tesi introduce BlazePoser, un’innovativa architettura di rete neurale end-to-end specificamente progettata per superare tali vincoli. Estendiamo l’efficiente backbone BlazeFace progettando e integrando due teste di stima della posa compatte e person- alizzate, che utilizzano le sue feature map multi-scala per il rilevamento di volti di varie dimensioni. La nostra metodologia impiega una strategia di addestramento unica, basata su embedding nello spazio delle feature e una funzione di perdita ibrida di classificazione- regressione per garantire una predizione angolare robusta. Per soddisfare i rigorosi req- uisiti on-device, sviluppiamo una pipeline sequenziale di distillazione teacher-student per il Quantization-Aware Fine-Tuning (QAF), che partiziona sistematicamente il modello e ottimizza ogni componente con dataset dedicati di soft-label. Il modello FP32 risultante contiene solo 104.1K parametri (406.7 KB) e ottiene un errore assoluto medio ( MAE_det) competitivo di 6.85° su AFLW2000 e 3.86° sul test set BIWI per i volti rilevati. La nostra pipeline QAF produce con successo un modello completamente quantizzato in INT8 di soli 109.5 KB con una degradazione minima delle prestazioni, raggiungendo un MAE di 7.29° e 4.70°, rispettivamente. BlazePoser dimostra che è possibile eseguire compiti complessi di computer vision multi-task su hardware altamente limitato, soddisfacendo con successo i severi vincoli di memoria e operatori dell’MCU target e abilitando una nuova classe di applicazioni embedded in tempo reale.