Combining automatic speaker verification and prosody analysis for synthetic speech detection

Recent developments in artificial intelligence have led to incredible innovations that are rapidly becoming part of our daily lives. This is the case of deepfakes, a new practice that allows generating hyper-realistic fake multimedia content. For example, it is possible to replace one person’s face with that of another in a photo or video or imitate the voice of someone by making them say anything. However, significant innovations often come with great threats. In fact, this technology can be very dangerous when exploited to steal someone’s identity, discredit him, or spread false news. A video that portrays a public figure with a strong social impact in a speech that was never delivered would have tremendous consequences. The same would happen for pornographic material that depicts a world-renowned celebrity with a simple exchange of faces. Finally, a cloned voice could be suitable for phone fraud or forgery of judicial evidence. Unfortunately, this is not a dystopian description of the near future but rather actual facts. Therefore, it is crucial to have the methodologies to neutralize such counterfeits. This thesis proposes a system capable of recognizing whether a given speech audio signal is synthetic or authentic. Our approach starts from the hypothesis that counterfeiting techniques are not yet able to recreate the most complex semantic aspects of the voice realistically. For this reason, we use a speech representation that takes into account two high-level features: vocal identity, related to timbre and intonation, and prosody, which we consider a very subtle but distinctive aspect of voice, related to behavioral characteristics and speech habits, such as style, accent or tone. We evaluate our system from different perspectives through a series of ad-hoc experiments involving a large amount of real and deepfake audio tracks. In this way, we demonstrate the effectiveness and novelty of our method compared to existing ones. In addition, we analyze its ability to generalize in less controlled scenarios and robustness to additional manipulations, such as compression, typically applied to deepfakes to hide traces of counterfeiting. These analyses lead to excellent results and open up possible future scenarios and improvements to the model.

I recenti sviluppi dell’intelligenza artificiale hanno portato a incredibili innovazioni che stanno rapidamente prendendo parte alla nostra vita quotidiana. È questo il caso dei deepfake, una nuova pratica che permette di generare dei contenuti multimediali iperrealistici, ma falsi. È possibile, ad esempio, sostituire il viso di una persona con quello di un’altra in una foto o in un video, oppure imitare la voce di qualcuno facendogli dire ciò che si vuole. Tuttavia, molto spesso a importanti innovazioni corrispondono anche grandi minacce. Infatti, tale tecnologia può essere molto pericolosa quando la si sfrutta con lo scopo di rubare l’identità della vittima, screditarla o diffondere notizie false. Un video che ritrae un personaggio pubblico con un forte impatto sociale in un discorso mai pronunciato potrebbe avere conseguenze tremende. La stessa cosa accadrebbe per del materiale pornografico che, con un semplice scambio di volti, ritrae una celebrità di fama mondiale. Infine, una voce clonata potrebbe prestarsi a frodi telefoniche o contraffazioni di prove giudiziarie. Purtroppo, questa non è una descrizione distopica di un futuro prossimo, ma si tratta di fatti realmente accaduti. È cruciale quindi avere a disposizione dei mezzi per contrastare tali contraffazioni. Questa tesi propone un sistema in grado di riconoscere se un dato audio contenga del parlato sintetico, oppure autentico. Il nostro approccio parte dall’ipotesi che le tecniche di contraffazione non siano ancora in grado di ricreare in modo realistico gli aspetti semantici più com- plessi della voce. Per questo motivo ci serviamo di una rappresentazione del parlato che tenga conto di due caratteristiche di alto livello: l’identità vocale, legata al timbro e all’intonazione, e la prosodia, che consideriamo un aspetto molto sottile, ma distintivo della voce, legato a caratteristiche comportamentali e abitudini nel parlare, come stile, accento o tono. Valutiamo il nostro sistema sotto diversi aspetti mediante una serie di esperimenti ad-hoc che coinvolgono una grande quantità di audio reali e deepfake. In questo modo dimostriamo l’efficacia e l’innovazione del nostro metodo rispetto a quelli già esistenti. Inoltre, analizziamo la sua capacità di generalizzare in contesti meno controllati e la robustezza a manipolazioni aggiuntive, come ad esempio la compressione, tipicamente applicata ai deepfake per nascondere le tracce di contraffazione. I risultati di queste analisi sono eccellenti e aprono a possibili scenari futuri e miglioramenti del modello.