Deep multimodal identity recognition in embedded systems

State-of-the-art techniques in the field of subject recognition make use of deep neural networks, that allow to obtain high performances, but at the cost of high resource requests. Nevertheless, the developments in the embedded systems field opened to the possibility to implement this recognition system on low-cost low-power devices. Nowadays, the majority of the recognition systems rely on the subjects features extracted in single-modality settings, making the study of the possibility to produce a system capable of working over different modalities very interesting. Starting from a video-only based (more precisely, based on static subject’s images extracted from a video sequence) recognition system, we integrate an audio-based part, that allows to include subject’s vocal characteristics in the recognition process. The model we propose involves the fusion of two unimodal embeddings, a video one and an audio one, produced by two distinct embedders, in an unique embedding that encodes the subject’s visual and vocal features. The limitations imposed by embedded systems make necessary that the proposed model non only allows to improve the original (video-only) system performance, but it has to be limited resources-demanding. The use of the MobileNetV2 neural network allows to develop a system that is implementable onto the STM32 platform. The performances of the architecture we proposed allow for an EER (equal error rate) reduction that oscillates (depending on the conditions) between 1 and 3 percentage points with respect to the results obtained with the video modality only.

Le tecniche allo stato dell’arte nell'ambito del riconoscimento di identità comprendono l’uso di reti neurali profonde, che permettono di ottenere elevate prestazioni, ma al costo di un’architettura molto complessa dalle elevate richieste di risorse. Nonostante ciò, lo sviluppo nell'ambito dei sistemi embedded ha aperto alla possibilità di implementare questi sistemi di riconoscimento in dispositivi a basso costo e bassa potenza. Allo stato attuale, la maggior parte dei sistemi di riconoscimento fa affidamento su caratteristiche dei soggetti rilevate nell'ambito di una singola modalità, rendendo di particolare interesse lo studio riguardo la possibilità di produrre un sistema di riconoscimento capace di operare su dati provenienti da diverse modalità. Partendo da un sistema di riconoscimento basato solo su video (più precisamente, su immagini statiche di un soggetto estratte da una sequenza video), abbiamo integrato una parte basata sull'audio, che permette di includere le caratteristiche vocali del soggetto nel processo di riconoscimento. Il modello da noi proposto prevede la fusione di due embedding unimodali, uno video e uno audio, prodotti da due embedder distinti, in un unico embedding che incorpora le caratteristiche visive e vocali di un soggetto. Le limitazioni imposte dai sistemi embedded hanno reso necessario che il modello multimodale proposto non sia solo migliorativo rispetto al sistema (solo video) originale, ma che necessiti di limitati requisiti in termini di risorse. L’utilizzo della rete neurale MobileNetV2 ha permesso di sviluppare un modello dai ridotti requisiti, la successiva quantizzazione dello stesso ha permesso di produrre un sistema a tutti gli effetti implementabile sulla piattaforma STM32. Lato prestazioni, l’architettura da noi proposta ha permesso una riduzione dell'EER (equal error rate) che oscilla (a seconda delle condizioni) tra 1 e 3 punti percentuali rispetto ai risultati ottenuti mediante l’uso della sola modalità video.