In recent years, we have witnessed a radical change in the way information is exchanged, moving from simple text-based communications to the use of multimedia elements such as audio and/or video messages. This trend has been facilitated by the increasing speed of network connections as well as the low cost of mobile-phones. However, technological advancements often pave the way to illegal use and new threatening scenarios that were previously unthinkable. For instance, voice recordings are often subject to tampering, whose aim ranges from deliberate manipulation to identity theft. It is no coincidence that the field of audio forensics is attracting interest among the scientific community, with an increasing number of publications on techniques for audio recordings analysis. Within this context, a relevant problem in forensic investigations is that of device identification. Solving this problem means to recover information useful to trace the device that produced the speech recording under analysis. These traces are always left on each recording during the acquisition phase, and different methods in the literature have been proposed to extract them. From a forensic perspective, this information constitutes the fingerprint (or signature) of the adopted device and it is used as a discriminating element in the device identification process. In this work, a method for device identification from speech recordings is proposed. The considered fingerprint is based on an estimate of the spectral fluctuations made by the device's microphone during the acquisition. In the literature this procedure is known as channel estimation. However, the process of extracting this fingerprint requires an audio recording as free as possible from external disturbances, such as speech or noise. It is well known that the presence of these undesirable signals causes a clear deterioration of the channel estimation, resulting in the unreliability of the device identification process. For this reason, we focus on the challenging problem of device identification in noisy conditions exploiting denoising techniques based on neural networks. In validating the effectiveness of the method, we formulate the problem in a closed-set scenario, where the number of possible devices is limited and known in advance. The results confirm our theoretical formulation, showing a significant increase in performances with respect to the model adopted as baseline, thus improving the final reliability of the device identification process in presence of speech recordings corrupted by noise.

Negli ultimi anni, abbiamo assistito ad un cambiamento radicale nella modalità di scambio di informazioni, passando da semplici comunicazioni testuali all'utilizzo di elementi multimediali come audio e/o video messaggi. Questa tendenza è stata facilitata dalla crescente velocità delle connessioni di rete nonché dal basso costo dei telefoni cellulari. Come spesso accade però, la tecnologia va di pari passo con l'illegalità, aprendo le porte a possibili scenari che prima d'ora erano impensabili. Dal furto d'identità, alla manipolazione volontaria, le registrazioni vocali sono spesso vittime di manomissioni atte a distorcere il loro reale contenuto. Non è un caso se nell'analisi forense di file multimediali, il settore dell'audio forense stia raccogliendo un crescente interesse tra la comunità scientifica, con un numero sempre maggiore di pubblicazioni riguardanti tecniche per l'analisi delle registrazioni audio. In questo contesto, un problema rilevante nelle indagini forensi è quello dell'identificazione del dispositivo. L'obiettivo finale è quello di recuperare informazioni utili per risalire al dispositivo che ha effettuato la registrazione vocale presa in analisi. Il dispositivo lascia sempre delle tracce intrinseche su ogni sua registrazione durante la fase di acquisizione e in letteratura sono stati proposti diversi metodi per estrarle. Nell'ottica forense, queste informazioni costituiscono l'impronta (o firma) del dispositivo adottato e verranno utilizzate come elemento discriminante nel processo di identificazione. In questa tesi proponiamo un metodo per l'identificazione del dispositivo partendo da una registrazione vocale. L'impronta considerata si basa su una stima delle modifiche spettrali applicate dal microfono del dispositivo in fase di acquisizione. Questa procedura è nota in letteratura come stima del canale. Il processo di estrazione di questa impronta necessita però di una registrazione audio che sia il più possibile esente da componenti esterne, come il parlato o rumore. È ben noto infatti come questi segnali provochino un netto deterioramento della stima, con la conseguente diminuzione dell'affidabilità nell'identificare il dispositivo utilizzato. Per questo motivo, ci concentriamo sul complesso problema dell'identificazione del dispositivo in condizioni rumorose sfruttando tecniche di denoising basate su reti neurali. Nel validare l'efficacia del metodo, formuliamo il problema in uno scenario closed-set, dove il numero di dispositivi possibili è limitato e noto in precedenza. I risultati ottenuti confermano la nostra formulazione teorica, ottenendo un notevole incremento rispetto al modello adottato come riferimento, migliorando quindi l'affidabilità finale nell'identificazione del dispositivo di acquisizione in presenza di registrazioni vocali corrotte da rumore.

Speaker-independent microphone identification via blind channel estimation in noisy condition

Giganti, Antonio
2020/2021

Abstract

In recent years, we have witnessed a radical change in the way information is exchanged, moving from simple text-based communications to the use of multimedia elements such as audio and/or video messages. This trend has been facilitated by the increasing speed of network connections as well as the low cost of mobile-phones. However, technological advancements often pave the way to illegal use and new threatening scenarios that were previously unthinkable. For instance, voice recordings are often subject to tampering, whose aim ranges from deliberate manipulation to identity theft. It is no coincidence that the field of audio forensics is attracting interest among the scientific community, with an increasing number of publications on techniques for audio recordings analysis. Within this context, a relevant problem in forensic investigations is that of device identification. Solving this problem means to recover information useful to trace the device that produced the speech recording under analysis. These traces are always left on each recording during the acquisition phase, and different methods in the literature have been proposed to extract them. From a forensic perspective, this information constitutes the fingerprint (or signature) of the adopted device and it is used as a discriminating element in the device identification process. In this work, a method for device identification from speech recordings is proposed. The considered fingerprint is based on an estimate of the spectral fluctuations made by the device's microphone during the acquisition. In the literature this procedure is known as channel estimation. However, the process of extracting this fingerprint requires an audio recording as free as possible from external disturbances, such as speech or noise. It is well known that the presence of these undesirable signals causes a clear deterioration of the channel estimation, resulting in the unreliability of the device identification process. For this reason, we focus on the challenging problem of device identification in noisy conditions exploiting denoising techniques based on neural networks. In validating the effectiveness of the method, we formulate the problem in a closed-set scenario, where the number of possible devices is limited and known in advance. The results confirm our theoretical formulation, showing a significant increase in performances with respect to the model adopted as baseline, thus improving the final reliability of the device identification process in presence of speech recordings corrupted by noise.
CUCCOVILLO, LUCA
ING - Scuola di Ingegneria Industriale e dell'Informazione
6-ott-2021
2020/2021
Negli ultimi anni, abbiamo assistito ad un cambiamento radicale nella modalità di scambio di informazioni, passando da semplici comunicazioni testuali all'utilizzo di elementi multimediali come audio e/o video messaggi. Questa tendenza è stata facilitata dalla crescente velocità delle connessioni di rete nonché dal basso costo dei telefoni cellulari. Come spesso accade però, la tecnologia va di pari passo con l'illegalità, aprendo le porte a possibili scenari che prima d'ora erano impensabili. Dal furto d'identità, alla manipolazione volontaria, le registrazioni vocali sono spesso vittime di manomissioni atte a distorcere il loro reale contenuto. Non è un caso se nell'analisi forense di file multimediali, il settore dell'audio forense stia raccogliendo un crescente interesse tra la comunità scientifica, con un numero sempre maggiore di pubblicazioni riguardanti tecniche per l'analisi delle registrazioni audio. In questo contesto, un problema rilevante nelle indagini forensi è quello dell'identificazione del dispositivo. L'obiettivo finale è quello di recuperare informazioni utili per risalire al dispositivo che ha effettuato la registrazione vocale presa in analisi. Il dispositivo lascia sempre delle tracce intrinseche su ogni sua registrazione durante la fase di acquisizione e in letteratura sono stati proposti diversi metodi per estrarle. Nell'ottica forense, queste informazioni costituiscono l'impronta (o firma) del dispositivo adottato e verranno utilizzate come elemento discriminante nel processo di identificazione. In questa tesi proponiamo un metodo per l'identificazione del dispositivo partendo da una registrazione vocale. L'impronta considerata si basa su una stima delle modifiche spettrali applicate dal microfono del dispositivo in fase di acquisizione. Questa procedura è nota in letteratura come stima del canale. Il processo di estrazione di questa impronta necessita però di una registrazione audio che sia il più possibile esente da componenti esterne, come il parlato o rumore. È ben noto infatti come questi segnali provochino un netto deterioramento della stima, con la conseguente diminuzione dell'affidabilità nell'identificare il dispositivo utilizzato. Per questo motivo, ci concentriamo sul complesso problema dell'identificazione del dispositivo in condizioni rumorose sfruttando tecniche di denoising basate su reti neurali. Nel validare l'efficacia del metodo, formuliamo il problema in uno scenario closed-set, dove il numero di dispositivi possibili è limitato e noto in precedenza. I risultati ottenuti confermano la nostra formulazione teorica, ottenendo un notevole incremento rispetto al modello adottato come riferimento, migliorando quindi l'affidabilità finale nell'identificazione del dispositivo di acquisizione in presenza di registrazioni vocali corrotte da rumore.
File allegati
File Dimensione Formato  
Giganti_Thesis.pdf

Open Access dal 17/09/2022

Dimensione 9.92 MB
Formato Adobe PDF
9.92 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/179420