A model selection method for room shape classification based on mono speech signals

Each audio recording contains a huge amount of forensic traces. In principle, from the analysis of a speech recording, it is possible to extract details that range from the estimation of the source device used for its acquisition, to environmental characteristics. However, studies in the acoustic analysis and audio forensic fields throw light on the lack of tools for geometrical classification based on reverberant speech audio. Despite acoustic analysis algorithms for estimating parameters like volume, reverberation time and enclosure type (e.g. small room, hall, stadium) were investigated in the literature, there is still room for improvement. This study aims at widening the set of possible room parameters which can be considered for audio analysis. In detail, it introduces the topic of room shape classification based on reverberant speech signals. The proposed methodology fixes some volume and reverberation time bands to enhance the performances of the shape classifiers and to establish a relationship among volume and geometry estimation performances. To do so, either a preliminary volume or a reverberation time estimation is performed to retrieve a band index estimate. Depending on the band index estimate, we retrieve the best shape classification model. Such estimator is used to prove whether a speech signal has been acquired in a room of a certain shape. Our research shows promising results even in the reverberant speech study case. However, we observe some difficulties in dealing with rooms of small size. Future work might consider introducing accurate free decay region extractors or using time-aware neural networks.

Ogni acquisizione audio contiene grandi quantità di tracce forensi. Dall’analisi di registrazioni vocali è possibile estrarre sia informazioni relative al dispositivo con qui l’acquisizione è effettuata che informazioni sulle caratteristiche dell’ambiente in cui la registrazione è effettuata. In ogni caso, gli studi nei campi di analisi acustica ed audio forense gettano luce sull’assenza di tools per la classificazione geometrica basata su segnali vocali riverberanti. Nonostante nella letteratura siano stati indagati algoritmi di analisi acustica per stimare parametri come volume, tempo di riverberazione e tipo di ambiente (p.es. se una piccola stanza, una hall od uno stadio), c’è ancora vasto margine di miglioramento. Questo studio mira ad amplicare l’insieme dei parametri di una stanza che possono essere presi in considerazione per effettuare un’analisi audio. In dettaglio, introduce l’argomento di classificazione della forma di una stanza basata su segnali vocali riverberanti. Il metodo proposto fissa delle bande di volume e di tempo di riverberazione per migliorare le performance dei classificatori di forma e per stabilire una relazione tra le metriche nella stima del volume e nella stima della geometria. Per poterlo fare, volume e tempo di riverberazione sono stimati in via preliminare per determinare la stima di un indice di banda. Dipendentemente da questo indice, siamo in grado di determinare il miglior modello per la classificazione della forma. Questo stimatore è usato per asserire se un segnale vocale sia o meno stato acquisito in una stanza di una determinata forma. La nostra ricerca mostra risultati promettenti anche nel caso di segnali vocali riverberanti. In ogni caso, riscontriamo difficoltà nel gestire stanze di piccole dimensioni. Futuri sviluppi potrebbero contemplare l’introduzione di estrattori di regioni di decadimento libero accurati o, ancor meglio, l’uso di time-aware neural networks.