Cascading on-device keyword spotting and speaker verification in TinyML

In recent years, interest in artificial intelligence has grown rapidly thanks to the countless possibilities it opens up. Although the most common direction is towards the development of extremely complex and increasingly demanding systems from an energy and computational point of view, a new branch of this discipline has begun to move towards the execution of such algorithms on integrated systems extremely limited both from the point of view of energy and computing power. This new approach to artificial intelligence has been called Tiny Machine Learning (TinyML), and it has a multitude of advantages that are not limited to reduced power consumption; it also provides greater attention to user privacy and a decrease in response times thanks to the processing of data directly on devices and platforms that are needed to collect them. TinyML could also guarantee a capillary diffusion of intelligent systems thanks to the extremely low cost of the platforms to which they are oriented. This Master's Thesis focuses on two fundamental Tiny Machine Learning tasks: keyword spotting, i.e. the reaction to voice commands pronounced by human beings, and speaker verification, which consists in ability to distinguish people from their own unique voice. The latter problem is tackled organically in the TinyML framework for the first time in this work, framing it in a new one-class few shot classification context. This work demonstrates the possibility of creating a system that combines both functions with a request for resources compatible with the capabilities offered by modern microcontrollers, proposing a comparison between different approaches: some of them were never been used before in a TinyML context, some have been identified and tested for the first time in this work.

Negli ultimi anni l'interesse per l'intelligenza artificiale (IA) è cresciuto rapidamente grazie alle innumerevoli possibilità che essa apre. Nonostante la direzione più comune dello sviluppo di sistemi di intelligenza artificiale sia orientata verso algoritmi estremamente complessi, e sempre più esigenti dal punto di vista energetico e computazionale, una nuova branca di tale disciplina ha iniziato ad esplorare la possibilità di eseguire algoritmi di IA su sistemi integrati caratterizzati da memoria e potenza di calcolo estremamente ridotte. Questo nuovo approccio all'intelligenza artificiale è stato denominato Tiny Machine Learning (TinyML), e presenta una moltitudine di vantaggi. Il più rilevante è l'irrisorio consumo energetico di tali sistemi intelligenti, ma vi sono anche una maggior attenzione alla privacy degli utenti e una diminuzione dei tempi di risposta dei sistemi grazie all'elaborazione dei dati direttamente sui dispositivi che si occupano della loro raccolta. Questo approccio all'IA potrebbe anche garantire una diffusione capillare di sistemi intelligenti grazie al costo estremamente ridotto delle piattaforme a cui sono orientati. Questa Tesi di Laurea Magistrale inquadra all'interno del Tiny Machine Learning due compiti fondamentali: keyword spotting, ovvero la reazione a comandi vocali pronunciati da esseri umani, e speaker verification, che consiste nella capacità di distinguere le persone ascoltandone la voce. Quest'ultimo problema viene affrontato in maniera organica in ambito TinyML per la prima volta in questo lavoro, inquadrandolo in un nuovo contesto di classificazione one-class few shot. Viene dimostrata la possibilità di realizzare un sistema che combini entrambe le funzionalità a fronte di una richiesta di risorse compatibile con quelle offerte dai moderni microcontrollori, proponendo un confronto tra approcci differenti: alcuni già presenti in letteratura, ma mai usati in questo contesto, mentre altri identificati e testati per la prima volta in questo lavoro.