Synthetic speech detection through emotion recognition : a semantic approach

The recent years have been characterized by huge advancements in the development of artificial intelligence techniques. These have opened the possibility of generating synthetic videos, audios, and images in such a realistic way that they are hardly distinguishable from real ones for a human eye or ear. This is the case of deepfakes, which are synthetic media in which a person in an existing image, video, or audio is replaced with someone else. Although these newly created media have been largely employed for recreational and artistic purposes, it has shortly become evident that the misuse of this type of content may lead to serious consequences, in particular when impersonation is involved. Indeed, many problems related to synthetic media like deepfakes have arisen, such as spreading of fake news, fraud cases, reputation ruining, and even falsification of proofs in front of a court of law. For these reasons, it is becoming more and more urgent to develop techniques able to distinguish real content from synthetic one and avoid uncontrolled deepfake spread. Since the majority of the deepfakes are videos containing visual and audio components, realistic speech generation is fundamental in order to achieve realistic synthetic content. Moreover, in some relevant cases, audio appears to be the only spoofed component. Some examples are fake speech recordings used as proof in front of a court of law or to fool a voice interface. The problem of recognizing synthetic speech is utterly delicate: speech synthesis techniques are becoming further sophisticated due to the increasing complexity of the underlying deep learning models. In this work, we address the problem of synthetic speech detection using high-level semantic-based features. In particular, we extract embeddings from a neural network-based speech emotion recognition system and feed them into the final synthetic speech detector with a novel transfer-learning approach. Indeed, we believe that the synthesis algorithms, although definitely capable of synthesizing low-level characteristics of a particular human voice, fail to recreate more complex aspects, such as the emotional ones, which are instead natural in a real, or bonafide, speech. In order to deeply evaluate the performances of the proposed system, we have built an ad-hoc dataset as the aggregation of multiple real and fake speech datasets. The total amount of processed data is huge, as well as the variety of the synthesis algorithms involved. Moreover, we used different datasets during the training and evaluation phase, in order to reach independence between the two and, therefore, to carry out a robust evaluation. We have designed 4 experiments, with the goal of evaluating the general performances of the system, its robustness to noise, the quality of the semantic-based emotional features we extracted, and their compatibility with the synthetic speech detection task. The results of the system evaluation are promising and lead to some general observations and suggestions for possible future developments.

Gli anni recenti sono stati caratterizzati da grandi progressi nello sviluppo delle tecniche basate sull'intelligenza artificiale. Tali progressi hanno reso possibile generare video, audio o immagini sintetiche così realistiche da essere difficilmente distinguibili da quelle reali per l'occhio o l'orecchio umano. E' il fenomeno dei deepfakes, ovvero media sintetici in cui una persona in un'immagine, video o audio esistente è rimpiazzata con qualcun altro. Sebbene queste nuovi media artefatti siano stati impiegati per lo più per usi artistici e di intrattenimento, è diventato presto chiaro come il cattivo uso di questo tipo di contenuti potesse portare a conseguenze gravi, , soprattutto quando si manifesta un furto di identità. In effetti, diversi problemi sono sorti riguardo a questi contenuti multimediali sintetici, come la diffusione di fake news, casi di frode e danneggiamento della reputazione, e addirittura falsificazione di prove davanti al giudice. Per queste ragione, sta diventando sempre più urgente sviluppare tecniche che siano capaci di discriminare i contenuti reali da quelli sintetici ed evitare la diffusione incontrollata di deepfakes. Poiché la maggioranza dei deepfakes è costituita da video, contenenti dunque sia la componente visiva che quella audio, la generazione di parlato realistico è fondamentale per ottenere un contenuto sintetico verosimile. Oltretutto, in alcuni casi rilevanti, l'audio è l'unica componente falsificata. Alcuni esempi sono registrazioni di parlato falso usate come prova davanti ad una corte di giustizia o per raggirare un'interfaccia vocale. Il problema di riconoscere il parlato sintetico è assolutamente delicato: le tecniche di sintesi stanno diventando sempre più sofisticate a causa della complessità crescente dei modelli di apprendimento profondo, o deep learning, su cui sono basate. In questo lavoro, affrontiamo il problema della rilevazione di parlato sintetico attraverso l'uso di caratteristiche semantiche di alto livello della voce. In particolare, estraiamo embeddings da un sistema di riconoscimento delle emozioni basato su una rete neurale, ed utilizziamo questi embeddings come input per il rilevatore di parlato sintetico, con un originale approccio transfer-learning. Siamo infatti convinti che gli algoritmi di sintesi vocale, sebbene capaci di riprodurre le caratteristiche di basso livello di una particolare voce umana, falliscano nel ricreare aspetti più complessi, come ad esempio quello emozionale, che sono invece naturali in una voce reale. Per valutare in profondità le prestazioni del sistema proposto, abbiamo costruito un dataset ad-hoc mettendo insieme diversi datasets contenenti parlato reale e/o sintetico. Il numero totale di tracce utilizzate è ingente, così come la varietà degli algoritmi di sintesi utilizzati. Inoltre, abbiamo usato dataset diversi durante la fase di allenamento e quella di test, al fine di avere due set indipendenti e, perciò, di condurre una valutazione delle prestazioni più robusta. Abbiamo progettato e realizzato 4 esperimenti, con gli obiettivi principali di valutare le prestazioni del modello in generale, la sua resistenza al rumore, la qualità delle caratteristiche semantiche che abbiamo estratto e la loro compatibilità con l'operazione di rilevamento del parlato sintetico. I risultati della valutazione del sistema sono promettenti, e conducono ad alcune osservazioni ed a suggerimenti per possibili sviluppi futuri.