Lightweight on-device anti-spoofing detection using ternary neural networks

Recent developments in the field of Artificial Intelligence (AI) have made it possible for the general public to easily, quickly, and inexpensively generate Deepfakes, extremely realistic yet artificially generated audio and videos of people. This phenomenon, combined with the growing employment of biometric recognition systems to access private information, has the inevitable consequence of endangering the security and privacy of everyone’s data. To address these threats, several effective Deep Learning (DL) architectures have been proposed, but the large computational costs of these methods remain a major obstacle to their effective use on resource-constrained devices, such as smartphones. In this thesis, we focus on the audio side of the problem: we propose a ternary-quantized version of the Light Convolutional Neural Network (LCNN) architecture, a well-established model for anti-spoofing detection in Automatic Speaker Verification (ASV) systems, and demonstrate that it achieves a significant reduction in both computational cost and memory requirements, while preserving detection performance, when compared to the state-of-theart model RawTFnet-16, which is specifically designed to combine cutting-edge detection performance with a reduced number of parameters. The network’s computational complexity was measured with Multiply-Accumulate Operations (MACs), revealing a 98.8% reduction in the number of operations, while the memory requirements were evaluated by directly comparing the models’ .pth files, observing a 55.5% drop. Finally, detection performance was analyzed using three different metrics: Area Under the Curve (AUC), Equal Error Rate (EER), and Balanced Accuracy.

I recenti sviluppi nel campo dell’AI hanno reso possibile, per il grande pubblico, generare Deepfake, audio e video di persone estremamente realistici seppur artificialmente generati, in modo semplice, veloce ed economico. Questo fenomeno, unito al crescente impiego di sistemi di riconoscimento biometrico, utilizzati per accedere a informazioni private, ha l’inevitabile conseguenza di porre in pericolo la sicurezza e la privacy dei dati di ognuno. Per affrontare queste minacce, sono state proposte diverse architetture di DL rivelatesi efficaci, tuttavia, i grossi costi computazionali di questi metodi rappresentano un importante ostacolo al loro effettivo utilizzo su dispositivi con risorse limitate, come gli smartphones. In questa tesi, ci concentriamo sull’aspetto audio del problema: proponiamo una versione ternarizzata dell’architettura LCNN, un modello ampiamente affermato per la rilevazione di Deepfake in un sistema per l’ASV e dimostriamo che ottiene una significativa riduzione sia nel costo computazionale che nei requisiti di memoria, preservando allo stesso tempo le prestazioni di rilevazione, rispetto a quelle del modello state-of-art RawTFnet-16, specificatamente progettato per ottenere elevate prestazioni con un ridotto numero di parametri. La complessità computazionale della rete è stata misurata in termini di MACs, evidenziando una riduzione del numero di operazioni pari al 98.8%, mentre i requisiti di memoria sono stati valutati confrontando direttamente le dimensioni dei file .pth dei modelli, rilevando un calo del 55.5%. Infine, le prestazioni di rilevazione sono state analizzate attraverso tre diverse metriche: AUC, EER e Balanced Accuracy