Recent works in the field of Audio Forensics highlighted how the problem of room volume estimation can be managed in different ways with different methods. However, the majority of these works rely on the a-priori knowledge of an Impulse Response or its estimation, which is not always the case or it is expensive in terms of time. Here we present an algorithm that works directly on audio recordings. In particular, audio recordings are taken from a custom generated dataset and the algorithm exploits a Convolutional Neural Network for strict room volume estimation. In addition to this, variants to the algorithm are implemented to investigate which data regions bring larger information content, comprising gls{fdr} segmentation, which is a signal segmentation technique, and attention layers insertion, which are structures inspired by Attention Neural Networks models. The results obtained with variants to the algorithm are very interesting, since they highlight features typologies which can enhance the overall performance and data regions which, if used individually, can bring performance enhancements as well.

Recenti studi nell'ambito Audio Forensics hanno evidenziato come il problema della stima del volume di una stanza possa essere approcciato con metodi differenti. La maggior parte di tali studi, però, fa affidamento sulla conoscenza a priori della Risposta all'Impulso o la sua stima, che non è sempre possibile. Con questo lavoro di tesi vogliamo presentare un algoritmo che lavori direttamente sulle registrazioni audio. In particolare, le registrazioni sono ricavate da un dataset generato personalmente e l'algoritmo sfrutta una Convolutional Neural Network per la stima diretta del volume di una stanza. Inoltre, alcune varianti dell'algoritmo sono state implementate in modo da poter studiare quali regioni di dati contengano la maggior parte delle informazioni, comprese una Free Decay Region segmentation, ovvero una tecnica di segmentazione del segnale, e l'inserzione di Attention Layers, ovvero strutture ispirate dalle Attention Neural Networks. I risultati ottenuti con tali varianti sono molto interessanti, in quanto evidenziano tipologie di features che possano aumentare le performance di tutto l'algoritmo, e regioni di dati che, se utilizzate individualmente, possono anch'esse apportare miglioramenti.

An approach to room volume estimation from single-channel speech signals based on neural networks

Castelnuovo, Carlo
2019/2020

Abstract

Recent works in the field of Audio Forensics highlighted how the problem of room volume estimation can be managed in different ways with different methods. However, the majority of these works rely on the a-priori knowledge of an Impulse Response or its estimation, which is not always the case or it is expensive in terms of time. Here we present an algorithm that works directly on audio recordings. In particular, audio recordings are taken from a custom generated dataset and the algorithm exploits a Convolutional Neural Network for strict room volume estimation. In addition to this, variants to the algorithm are implemented to investigate which data regions bring larger information content, comprising gls{fdr} segmentation, which is a signal segmentation technique, and attention layers insertion, which are structures inspired by Attention Neural Networks models. The results obtained with variants to the algorithm are very interesting, since they highlight features typologies which can enhance the overall performance and data regions which, if used individually, can bring performance enhancements as well.
BESTAGINI, PAOLO
BORRELLI, CLARA
ING - Scuola di Ingegneria Industriale e dell'Informazione
24-lug-2020
2019/2020
Recenti studi nell'ambito Audio Forensics hanno evidenziato come il problema della stima del volume di una stanza possa essere approcciato con metodi differenti. La maggior parte di tali studi, però, fa affidamento sulla conoscenza a priori della Risposta all'Impulso o la sua stima, che non è sempre possibile. Con questo lavoro di tesi vogliamo presentare un algoritmo che lavori direttamente sulle registrazioni audio. In particolare, le registrazioni sono ricavate da un dataset generato personalmente e l'algoritmo sfrutta una Convolutional Neural Network per la stima diretta del volume di una stanza. Inoltre, alcune varianti dell'algoritmo sono state implementate in modo da poter studiare quali regioni di dati contengano la maggior parte delle informazioni, comprese una Free Decay Region segmentation, ovvero una tecnica di segmentazione del segnale, e l'inserzione di Attention Layers, ovvero strutture ispirate dalle Attention Neural Networks. I risultati ottenuti con tali varianti sono molto interessanti, in quanto evidenziano tipologie di features che possano aumentare le performance di tutto l'algoritmo, e regioni di dati che, se utilizzate individualmente, possono anch'esse apportare miglioramenti.
File allegati
File Dimensione Formato  
An approach to room volume estimation from single-channel speech signals based on neural networks.pdf

accessibile in internet solo dagli utenti autorizzati

Dimensione 2.45 MB
Formato Adobe PDF
2.45 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/164749