The widespread diffusion of portable devices with audio recording capabilities such as smartphones, has determined the possibility of using audio documentation in forensic scenarios like court of law trials. In these circumstances, it is of paramount importance to be able to verify that the multimedia data possibly employed as a proof has not been tampered with in any way. Considering the case of speech, one of the most common and easy ways of manipulating some audio recordings consists in creating a new audio track by combining multiple different tracks. We can refer to this mechanism as extit{audio splicing}. This is extremely dangerous as it enables to strongly alter the meaning of a recording, also generating sentences that were never said by a speaker. However, when multiple recordings are linked together, it is likely that the original tracks used for the forgery were recorded in different environments. It is plausible to assume that different environments have different acoustic properties. Therefore, from the forensic point of view, it is possible to leverage environmental traces to expose splicing forgeries. The purpose of this thesis is to present a framework to blindly characterize the acquisition environment of speech signals. In particular, we develop a technique for blind reverberation time estimation and tracking, and we use this quantity to detect and localize possible discontinuities in the analysed audio. This enables us to tell whether a speech signal has been counterfeited by means of splicing attacks, and at which point in time the splicing happens.

La grande diffusione di dispositivi portatili, come gli smartphone, con possibilità di registrare segnali audio, ha aumentato la probabilità che documentazione audio possa essere utilizzata in contesti di tipo forense, come ad esempio le corti di giustizia dei tribunali. In tali circostanze, è di primaria importanza essere in grado di verificare che i contenuti multimediali utilizzati come prove non siano stati in alcun modo manomessi. Considerando il caso di segnali parlati, uno dei metodi più utilizzati e facili da realizzare per manipolare registrazioni audio consiste nella creazione di una traccia ex novo attraverso la combinazione di più tracce differenti. Chiamiamo questo meccanismo audio splicing. Ciò é estremamente pericoloso, dal momento che permette di alterare radicalmente il significato di una registrazione, generando frasi che potrebbero non essere mai state pronunciate dal parlatore in questione. Tuttavia, quando più registrazioni vengono combinate, è piuttosto probabile che le tracce originali utilizzate per la contraffazione siano state registrate in luoghi diversi. È inoltre ragionevole assumere che luoghi diversi abbiano caratteristiche acustiche diverse. Perciò, dal punto di vista forense, è possibile sfruttare le tracce lasciate da questi diversi ambienti di acquisizione per far emergere eventuali contraffazioni. Lo scopo di questa tesi è quello di fornire una procedura per caratterizzare l'ambiente di acquisizione di segnali parlati, senza l'utilizzo di alcuna informazione a priori. In particolare, é stata sviluppata una tecnica per stimare e tracciare il tempo di riverberazione, e utilizzare tale quantità per individuare e localizzare possibili discontinuità nell'audio in analisi. Ciò permette di stabilire se un segnale parlato è stato contraffatto attraverso audio splicing, e in quale punto è avvenuta tale contraffazione.

Audio splicing detection and localization based on acoustic cues

Capoferri, Davide
2019/2020

Abstract

The widespread diffusion of portable devices with audio recording capabilities such as smartphones, has determined the possibility of using audio documentation in forensic scenarios like court of law trials. In these circumstances, it is of paramount importance to be able to verify that the multimedia data possibly employed as a proof has not been tampered with in any way. Considering the case of speech, one of the most common and easy ways of manipulating some audio recordings consists in creating a new audio track by combining multiple different tracks. We can refer to this mechanism as extit{audio splicing}. This is extremely dangerous as it enables to strongly alter the meaning of a recording, also generating sentences that were never said by a speaker. However, when multiple recordings are linked together, it is likely that the original tracks used for the forgery were recorded in different environments. It is plausible to assume that different environments have different acoustic properties. Therefore, from the forensic point of view, it is possible to leverage environmental traces to expose splicing forgeries. The purpose of this thesis is to present a framework to blindly characterize the acquisition environment of speech signals. In particular, we develop a technique for blind reverberation time estimation and tracking, and we use this quantity to detect and localize possible discontinuities in the analysed audio. This enables us to tell whether a speech signal has been counterfeited by means of splicing attacks, and at which point in time the splicing happens.
ANTONACCI, FABIO
BORRELLI, CHIARA
ING - Scuola di Ingegneria Industriale e dell'Informazione
24-lug-2020
2019/2020
La grande diffusione di dispositivi portatili, come gli smartphone, con possibilità di registrare segnali audio, ha aumentato la probabilità che documentazione audio possa essere utilizzata in contesti di tipo forense, come ad esempio le corti di giustizia dei tribunali. In tali circostanze, è di primaria importanza essere in grado di verificare che i contenuti multimediali utilizzati come prove non siano stati in alcun modo manomessi. Considerando il caso di segnali parlati, uno dei metodi più utilizzati e facili da realizzare per manipolare registrazioni audio consiste nella creazione di una traccia ex novo attraverso la combinazione di più tracce differenti. Chiamiamo questo meccanismo audio splicing. Ciò é estremamente pericoloso, dal momento che permette di alterare radicalmente il significato di una registrazione, generando frasi che potrebbero non essere mai state pronunciate dal parlatore in questione. Tuttavia, quando più registrazioni vengono combinate, è piuttosto probabile che le tracce originali utilizzate per la contraffazione siano state registrate in luoghi diversi. È inoltre ragionevole assumere che luoghi diversi abbiano caratteristiche acustiche diverse. Perciò, dal punto di vista forense, è possibile sfruttare le tracce lasciate da questi diversi ambienti di acquisizione per far emergere eventuali contraffazioni. Lo scopo di questa tesi è quello di fornire una procedura per caratterizzare l'ambiente di acquisizione di segnali parlati, senza l'utilizzo di alcuna informazione a priori. In particolare, é stata sviluppata una tecnica per stimare e tracciare il tempo di riverberazione, e utilizzare tale quantità per individuare e localizzare possibili discontinuità nell'audio in analisi. Ciò permette di stabilire se un segnale parlato è stato contraffatto attraverso audio splicing, e in quale punto è avvenuta tale contraffazione.
File allegati
File Dimensione Formato  
Audio Splicing Detection and Localization Based on Acoustic Cues - Davide Capoferri.pdf

accessibile in internet solo dagli utenti autorizzati

Dimensione 28.39 MB
Formato Adobe PDF
28.39 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/164950