The recent developments and diffusion of audio recording devices, audio editing tools and speech synthesis techniques have opened questions about how to verify the authenticity and integrity of audio assets. On one side, audio recordings are frequently used as fundamental assets in trials and audio analysis methods are needed to asses their admissibility in court. On the other side, falsification of digital media represents nowadays a menace for modern communication and information ecosystems. Fake news, distributed through social media platforms, are frequently distributed together with forged media content, to acquire credibility at the eyes of deceived users and to increase the engagement. The development of detection methods able to expose fake speech signals is therefore paramount. In this thesis we propose a set of methods for both authenticity and integrity assessment in audio forensics scenarios. Depending on the context, the analysis aims at retrieving information on the recording acoustic scenario or on the speech signal origin. Authenticity is evaluated by matching the extracted cues with a preliminary hypothesis while manipulations are detected by looking at cue's inconsistencies over time. In the last years, the audio forensic research community has frequently addressed these two problems, proposing solutions based on digital signal processing techniques or, more recently, the combination of hand-crafted features with supervised classic machine learning method. In this work we present new methods that expand this approach with the use of recent neural-network-based architectures and, by combining all these different strategies, able to successfully address various different scenarios. If large training audio corpora are available, leveraging deep neural networks allows to extract high-level semantic information and to achieve higher generalisation ability and robustness. On the contrary, if either available data or computational power is reduced, methods based on signal model and low-level descriptors are more suitable and still successful, even if less robust to possible small modifications of the input audio. With this paradigm in mind, we first focus on the definition of two indicators of the acoustic recording environment and present how to blindly estimate them from single-channel noisy audio signal. Then, we focus on synthetic speech detection and attribution for authenticity assessment, presenting solutions that analyse speech signals at various abstraction levels. Finally, two integrity verification methods are presented, focusing in particular on splicing identification and localisation. All methods are validated trough a set of experiments designed to test at the same time detection performance and robustness in real-world conditions. This thesis represents a preliminary investigation, which we hope will help widening the perspectives of audio forensic research.

I recenti sviluppi e la crescente diffusione di dispositivi di registrazione audio, software di audio editing e tecniche di sintesi vocale hanno creato la necessità di ideare strumenti in grado di verificare automaticamente l’autenticità e l’integrità di file audio. Infatti, ad esempio, una registrazione audio può essere utilizzata come prova in ambiti forensi ed è quindi necessario verificare l’ammissibilità di tale prova in un processo. Inoltre, la falsificazione di contenuti audio-visivi rappresenta al giorno d’oggi una minaccia per la sicurezza della comunicazione moderna e, in generale, dell’ecosistema dell’informazione. Le fake news, generalmente distribuite tramite le piattaforme social, sono spesso accompagnate da audio, video o immagini falsificate, in modo da incrementare la credibilità agli occhi dell’utente e per aumentare il livello di coinvolgimento. Lo sviluppo di metodi in grado di rivelare se un segnale di parlato è stato generato sinteticamente è quindi di grande importanza. In questa tesi proponiamo alcuni metodi di verifica dell’autenticità e dell’integrità di tracce audio in ambito forense. A seconda dello scenario l’analisi può focalizzarsi sull’estrazione di informazioni riguardante l’ambiente di registrazione o, ad esempio, concentrarsi nella ricostruzione dell’origine del segnale di parlato. E’ possibile quindi garantire l’autenticità della traccia analizzata verificando che le informazioni estratte coincidano con quelle ipotizzate a priori, mentre l’integrità della traccia audio è garantita se tali caratteristiche rimangono costanti lungo tutta la traccia. Negli ultimi anni la comunità di ricerca di audio forense ha spesso affrontato i due problemi esposti, proponendo soluzioni basate su metodo di elaborazione del segnale digitale o, più recentemente, combinando l’estrazione di feature con metodi di machine learning supervisionato. In questo lavoro ci focalizziamo su nuovi metodi che espandono l’approccio tradizionale, introducendo l’impiego di reti neurali e, combinando le varie tecniche, in grado di essere efficaci in vari scenari applicativi. Infatti, se si ha accesso a grandi database audio per la fase di training, l’utilizzo di reti neurali permette l’estrazione di informazioni ad alto livello semantico e, quindi, incrementa la robustezza e la capacità di generalizzazione del metodo. Se invece ci troviamo in uno scenario di ridotta capacità computazionale o con pochi dati audio a disposizione, è preferibile adottare tecniche basate sulla modellizzazione del segnale e l’utilizzo di descrittori di basso livello, che garantiscono comunque delle buone performance anche se meno robuste alle variazioni del segnale di ingresso. Seguendo questo paradigma, nel primo capitolo della tesi proponiamo due indicatori delle condizioni acustiche dell’ambiente di registrazione e due metodi in grado di stimarli a partire da segnali audio a singolo canale, che possono essere soggetti a rumore o riverberazione. Nel secondo capitolo ci concentriamo sul rilevamento di segnali parlati sintetici, presentando diverse soluzioni che analizzano il parlato a vari livelli di astrazione. Infine nel terzo capitolo presentiamo due metodi di verifica dell’integrità di segnali audio, concentrandoci sull’identificazione e localizzazione di splicing. Tutti i metodi sono validati tramite una fase sperimentale, ideata in modo tale da verificare sia le performance in condizioni ideali, sia il funzionamento in scenari reali. Questa tesi rappresenta un’indagine preliminare seguendo un approccio innovativo, che speriamo aiuti ad allargare in futuro le prospettive della ricerca in ambito audio forense.

Data driven and signal processing techniques for audio forensics

Borrelli, Clara
2021/2022

Abstract

The recent developments and diffusion of audio recording devices, audio editing tools and speech synthesis techniques have opened questions about how to verify the authenticity and integrity of audio assets. On one side, audio recordings are frequently used as fundamental assets in trials and audio analysis methods are needed to asses their admissibility in court. On the other side, falsification of digital media represents nowadays a menace for modern communication and information ecosystems. Fake news, distributed through social media platforms, are frequently distributed together with forged media content, to acquire credibility at the eyes of deceived users and to increase the engagement. The development of detection methods able to expose fake speech signals is therefore paramount. In this thesis we propose a set of methods for both authenticity and integrity assessment in audio forensics scenarios. Depending on the context, the analysis aims at retrieving information on the recording acoustic scenario or on the speech signal origin. Authenticity is evaluated by matching the extracted cues with a preliminary hypothesis while manipulations are detected by looking at cue's inconsistencies over time. In the last years, the audio forensic research community has frequently addressed these two problems, proposing solutions based on digital signal processing techniques or, more recently, the combination of hand-crafted features with supervised classic machine learning method. In this work we present new methods that expand this approach with the use of recent neural-network-based architectures and, by combining all these different strategies, able to successfully address various different scenarios. If large training audio corpora are available, leveraging deep neural networks allows to extract high-level semantic information and to achieve higher generalisation ability and robustness. On the contrary, if either available data or computational power is reduced, methods based on signal model and low-level descriptors are more suitable and still successful, even if less robust to possible small modifications of the input audio. With this paradigm in mind, we first focus on the definition of two indicators of the acoustic recording environment and present how to blindly estimate them from single-channel noisy audio signal. Then, we focus on synthetic speech detection and attribution for authenticity assessment, presenting solutions that analyse speech signals at various abstraction levels. Finally, two integrity verification methods are presented, focusing in particular on splicing identification and localisation. All methods are validated trough a set of experiments designed to test at the same time detection performance and robustness in real-world conditions. This thesis represents a preliminary investigation, which we hope will help widening the perspectives of audio forensic research.
PIRODDI, LUIGI
CESANA, MATTEO
23-giu-2022
Data driven and signal processing techniques for audio forensics
I recenti sviluppi e la crescente diffusione di dispositivi di registrazione audio, software di audio editing e tecniche di sintesi vocale hanno creato la necessità di ideare strumenti in grado di verificare automaticamente l’autenticità e l’integrità di file audio. Infatti, ad esempio, una registrazione audio può essere utilizzata come prova in ambiti forensi ed è quindi necessario verificare l’ammissibilità di tale prova in un processo. Inoltre, la falsificazione di contenuti audio-visivi rappresenta al giorno d’oggi una minaccia per la sicurezza della comunicazione moderna e, in generale, dell’ecosistema dell’informazione. Le fake news, generalmente distribuite tramite le piattaforme social, sono spesso accompagnate da audio, video o immagini falsificate, in modo da incrementare la credibilità agli occhi dell’utente e per aumentare il livello di coinvolgimento. Lo sviluppo di metodi in grado di rivelare se un segnale di parlato è stato generato sinteticamente è quindi di grande importanza. In questa tesi proponiamo alcuni metodi di verifica dell’autenticità e dell’integrità di tracce audio in ambito forense. A seconda dello scenario l’analisi può focalizzarsi sull’estrazione di informazioni riguardante l’ambiente di registrazione o, ad esempio, concentrarsi nella ricostruzione dell’origine del segnale di parlato. E’ possibile quindi garantire l’autenticità della traccia analizzata verificando che le informazioni estratte coincidano con quelle ipotizzate a priori, mentre l’integrità della traccia audio è garantita se tali caratteristiche rimangono costanti lungo tutta la traccia. Negli ultimi anni la comunità di ricerca di audio forense ha spesso affrontato i due problemi esposti, proponendo soluzioni basate su metodo di elaborazione del segnale digitale o, più recentemente, combinando l’estrazione di feature con metodi di machine learning supervisionato. In questo lavoro ci focalizziamo su nuovi metodi che espandono l’approccio tradizionale, introducendo l’impiego di reti neurali e, combinando le varie tecniche, in grado di essere efficaci in vari scenari applicativi. Infatti, se si ha accesso a grandi database audio per la fase di training, l’utilizzo di reti neurali permette l’estrazione di informazioni ad alto livello semantico e, quindi, incrementa la robustezza e la capacità di generalizzazione del metodo. Se invece ci troviamo in uno scenario di ridotta capacità computazionale o con pochi dati audio a disposizione, è preferibile adottare tecniche basate sulla modellizzazione del segnale e l’utilizzo di descrittori di basso livello, che garantiscono comunque delle buone performance anche se meno robuste alle variazioni del segnale di ingresso. Seguendo questo paradigma, nel primo capitolo della tesi proponiamo due indicatori delle condizioni acustiche dell’ambiente di registrazione e due metodi in grado di stimarli a partire da segnali audio a singolo canale, che possono essere soggetti a rumore o riverberazione. Nel secondo capitolo ci concentriamo sul rilevamento di segnali parlati sintetici, presentando diverse soluzioni che analizzano il parlato a vari livelli di astrazione. Infine nel terzo capitolo presentiamo due metodi di verifica dell’integrità di segnali audio, concentrandoci sull’identificazione e localizzazione di splicing. Tutti i metodi sono validati tramite una fase sperimentale, ideata in modo tale da verificare sia le performance in condizioni ideali, sia il funzionamento in scenari reali. Questa tesi rappresenta un’indagine preliminare seguendo un approccio innovativo, che speriamo aiuti ad allargare in futuro le prospettive della ricerca in ambito audio forense.
File allegati
File Dimensione Formato  
final.pdf

Open Access dal 26/06/2023

Descrizione: Phd Thesis
Dimensione 8.71 MB
Formato Adobe PDF
8.71 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/188972