Speech fingerprinting and matching for content retrieval

Audio fingerprinting and matching is a technology which is widely used in many contexts. From research to commercial applications, from forensics to all the situations in which sound content retrieval is vital, its benefits are acknowledged. The robustness of matching based on audio fingerprinting is so high that it can be effective in very noisy environments as well. Nearly everything has been explored if we talk about music field. What could be possible if we manage a way to implement audio fingerprinting for speech? As for music, also matching speech might be relevant in many scenarios: from countering disinformation by spotting mashups, to monitoring viral content, and many others. With this premise, the goal of this work is to study, and eventually provide, a method for speech matching and recognition using a fingerprint. The technologies studied and proposed aim to be effective in different contexts, such as noisy environments or situations where background music can be heard as well. After a proper explanation of the state of the art, the proposed methods will be shown: two initial techniques, inspired directly by the state of the art and mainly based on digital signal processing, and two additional techniques studying how recent neural network solutions could help developing efficient techniques for speech fingerprint extractions.

La tecnologia di audio fingerprinting e matching è ampiamente utilizzata in molti contesti. I suoi vantaggi sono riconosciuti: dalla ricerca alle applicazioni commerciali, dall’ambito forense a, più in generale, tutte le situazioni in cui il recupero di contenuti sonori è vitale. La robustezza di un audio matching condotto sfruttando delle fingerprints è così elevata che può essere efficace anche in ambienti molto rumorosi. In ambito musicale, quasi ogni ipotesi è stata esplorata. Ci si chiede dunque: cosa potrebbe essere possibile se riuscissimo a trovare una metodologia per implementare l’audio fingerprinting per il parlato? Come per la musica, anche uno speech matching potrebbe essere determinante in diversi scenari: dal contrastare la disinformazione individuando i mashup, al monitoraggio dei contenuti virali, e altro ancora. Con questa premessa, l'obiettivo di questo lavoro è quello di studiare, ed ad ultimo fornire, un metodo per il matching e il riconoscimento del parlato utilizzando una fingerprint. Le tecnologie studiate e proposte mirano ad essere efficaci in diversi contesti, come ambienti rumorosi o situazioni in cui si può sentire anche della musica di sottofondo. Dopo un'adeguata spiegazione dello stato dell'arte, proporremo diversi metodi per approcciare il problema: due ispirati direttamente dallo stato dell'arte e basati principalmente sull'elaborazione digitale del segnale, e ulteriori due atti a studiare come i recenti progressi in ambito di deep learning possano aiutare a sviluppare tecniche efficienti per l'estrazione della fingerprint.