An approach to room volume estimation from single-channel speech signals based on neural networks

Biblioteche e Archivi
POLITesi - Archivio digitale delle tesi di laurea e di dottorato

Recent works in the field of Audio Forensics highlighted how the problem of room volume estimation can be managed in different ways with different methods. However, the majority of these works rely on the a-priori knowledge of an Impulse Response or its estimation, which is not always the case or it is expensive in terms of time. Here we present an algorithm that works directly on audio recordings. In particular, audio recordings are taken from a custom generated dataset and the algorithm exploits a Convolutional Neural Network for strict room volume estimation. In addition to this, variants to the algorithm are implemented to investigate which data regions bring larger information content, comprising gls{fdr} segmentation, which is a signal segmentation technique, and attention layers insertion, which are structures inspired by Attention Neural Networks models. The results obtained with variants to the algorithm are very interesting, since they highlight features typologies which can enhance the overall performance and data regions which, if used individually, can bring performance enhancements as well.

Recenti studi nell'ambito Audio Forensics hanno evidenziato come il problema della stima del volume di una stanza possa essere approcciato con metodi differenti. La maggior parte di tali studi, però, fa affidamento sulla conoscenza a priori della Risposta all'Impulso o la sua stima, che non è sempre possibile. Con questo lavoro di tesi vogliamo presentare un algoritmo che lavori direttamente sulle registrazioni audio. In particolare, le registrazioni sono ricavate da un dataset generato personalmente e l'algoritmo sfrutta una Convolutional Neural Network per la stima diretta del volume di una stanza. Inoltre, alcune varianti dell'algoritmo sono state implementate in modo da poter studiare quali regioni di dati contengano la maggior parte delle informazioni, comprese una Free Decay Region segmentation, ovvero una tecnica di segmentazione del segnale, e l'inserzione di Attention Layers, ovvero strutture ispirate dalle Attention Neural Networks. I risultati ottenuti con tali varianti sono molto interessanti, in quanto evidenziano tipologie di features che possano aumentare le performance di tutto l'algoritmo, e regioni di dati che, se utilizzate individualmente, possono anch'esse apportare miglioramenti.

An approach to room volume estimation from single-channel speech signals based on neural networks

Castelnuovo, Carlo

2019/2020

Abstract

Recent works in the field of Audio Forensics highlighted how the problem of room volume estimation can be managed in different ways with different methods. However, the majority of these works rely on the a-priori knowledge of an Impulse Response or its estimation, which is not always the case or it is expensive in terms of time. Here we present an algorithm that works directly on audio recordings. In particular, audio recordings are taken from a custom generated dataset and the algorithm exploits a Convolutional Neural Network for strict room volume estimation. In addition to this, variants to the algorithm are implemented to investigate which data regions bring larger information content, comprising gls{fdr} segmentation, which is a signal segmentation technique, and attention layers insertion, which are structures inspired by Attention Neural Networks models. The results obtained with variants to the algorithm are very interesting, since they highlight features typologies which can enhance the overall performance and data regions which, if used individually, can bring performance enhancements as well.

Scheda breve

Scheda completa

	Relatore
	
				ANTONACCI, FABIO
			
	Correlatore/i
	
				BESTAGINI, PAOLO
BORRELLI, CLARA
			
	Scuola / Dip.
	
				ING  - Scuola di Ingegneria Industriale e dell'Informazione
			
	Data
	
				24-lug-2020
			
	Anno accademico
	
				2019/2020
			
	Abstract in italiano
	
				Recenti studi nell'ambito Audio Forensics hanno evidenziato come il problema della stima del volume di una stanza possa essere approcciato con metodi differenti. La maggior parte di tali studi, però, fa affidamento sulla conoscenza a priori della Risposta all'Impulso o la sua stima, che non è sempre possibile. Con questo lavoro di tesi vogliamo presentare un algoritmo che lavori direttamente sulle registrazioni audio. In particolare, le registrazioni sono ricavate da un dataset generato personalmente e l'algoritmo sfrutta una Convolutional Neural Network per la stima diretta del volume di una stanza. Inoltre, alcune varianti dell'algoritmo sono state implementate in modo da poter studiare quali regioni di dati contengano la maggior parte delle informazioni, comprese una Free Decay Region segmentation, ovvero una tecnica di segmentazione del segnale, e l'inserzione di Attention Layers, ovvero strutture ispirate dalle Attention Neural Networks. I risultati ottenuti con tali varianti sono molto interessanti, in quanto evidenziano tipologie di features che possano aumentare le performance di tutto l'algoritmo, e regioni di dati che, se utilizzate individualmente, possono anch'esse apportare miglioramenti.
			
	Appare nelle tipologie:
	
				Tesi di laurea Magistrale

File allegati

File	Dimensione	Formato
An approach to room volume estimation from single-channel speech signals based on neural networks.pdf accessibile in internet solo dagli utenti autorizzati Dimensione 2.45 MB Formato Adobe PDF Visualizza/Apri	2.45 MB	Adobe PDF	Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/164749