Time-scaling detection in audio recordings

The widespread diffusion of user friendly editing software for audio signals has made audio tampering extremely accessible to anyone. For this reason, it is increasingly necessary to develop forensic methodologies that enable to verify if a given audio content has been digitally manipulated or not. Among the multiple available audio editing techniques, a very common one is time-scaling, i.e. the alteration of the temporal evolution of an audio signal not affecting any pitch component. For instance, this can be used to slow-down or speed-up speech recordings, thus enabling the creation of natural sounding fake speech compositions. In this thesis we propose a valid methodology to blindly detect the application of time-scaling to an audio signal. Moreover, our method estimates the time-scaling factor, i.e. the ratio between the duration of the original signal and the time-scaled one. Our solution is based on a data-driven approach. Specifically, we develop a Convolutional Neural Network that analyzes Log-Mel Spectrogram and phase information of the input audio signal to expose time-scaling. The proposed technique is tested on a wide dataset of audio tracks that have been edited using three different time-scaling algorithms and several scaling factors. Results show that the Log-Mel Spectrogram is the preferred input to achieve accurate time-scaling detection. Moreover, experiments in a cross-dataset scenario show that the proposed method is able to detect time-scaling regardless of the specific implementation, thus proving the generalization capability of the proposed network.

L'elevata diffusione di software di facile utilizzo per editing di segnali audio digitali, ha reso la manomissione dei suddetti segnali estremamente accessibile a chiunque. Per questo motivo, è sempre più necessario lo sviluppo di metodologie forensi che consentano di verificare se un determinato contenuto audio è stato manipolato digitalmente o meno. Tra le molteplici tecniche di editing audio disponibili, una molto comune è il time-scaling, ossia l'alterazione dell'evoluzione temporale di un segnale audio senza influire su nessuna componente dell'intonazione. Ad esempio, il time-scaling può essere impiegato per rallentare o accelerare le registrazioni vocali, consentendo così la creazione di composizioni vocali false dal suono naturale. In questa tesi proponiamo una valida metodologia per rilevare l'applicazione del time-scaling su un segnale audio. Inoltre, il nostro metodo stima il fattore di time-scaling, ovvero il rapporto tra la durata del segnale originale e di quello modificato. La nostra soluzione si basa su un approccio basato sui dati. Nello specifico, sviluppiamo una rete neurale convoluzionale che analizza il Log-Mel Spectrogram e le informazioni sulla fase del segnale audio in ingresso su cui applicare il time-scaling. La tecnica proposta viene testata su un ampio set di dati di tracce audio che sono state modificate utilizzando tre diversi algoritmi di time-scaling e diversi fattori di scaling. I risultati mostrano che il Log-Mel Spectrogram è l'input preferibile per ottenere un rilevamento accurato del time-scaling. Inoltre, gli esperimenti in uno scenario cross-dataset mostrano che il metodo proposto è in grado di rilevare il time-scaling indipendentemente dall'implementazione specifica, dimostrando così la capacità di generalizzazione della rete proposta.