Spatial and binaural audio is nowadays a fundamental component of many domotic and hi-fi commercial systems. The main players in this market rely mainly on loudspeakers systems to reproduce the audio scene but so far the headphones haven’t been largely exploited for this purpose. Moving the spatial audio rendering from loudspeakers to headphones would potentially enable a whole new set of scenarios for many fields of the media industry. The ability to localize a sound source in space strongly depends on the shape of each individual’s ears, head and upper torso. Their anatomy determines specific filtering features that give us the perception of sound in the environment. Those features are encoded in a set of filters known as Head Related Transfer Function (HRTF). HRTF generation is of great interest in the research community; considering the strong link between specific human anatomy and associated HRTF features, the need of a personalized HRTF is nowadays undisputed. Traditional personalized HRTF generation relies on complex acoustical measurements that requires expensive hardware; advances in numerical techniques allow to predict the HRTFs starting from 3D models of the head, ear and torso. Typically those models are extracted by using a Laser Scanner or MRI. Even though they provide high resolution models, these solutions are extremely expensive and complex. The main limitation resides in the long duration of the scan session. In my thesis I focus on the generation of the 3D model of a person’s ear using low-cost, off-the-shelf hardware. The main goal is to acquire 3D models that can find application in the context of binaural audio, while keeping the acquisition system simple and easy-to-use. The proposed 3D extraction method is based on a Multi View approach that greatly reduces the complexity of the 3D acquisition procedure. By using a Leap Motion and a Kinect device many images of the ear are captured from different viewpoints and then processed to obtain a 3D point cloud. The designed extraction algorithm works by exploiting the Epipolar Geometry to match couples of points in the acquired images; the matched points are then triangulated to extract the point cloud. One point cloud is extracted per each couples of captured images and then fused in a single 3D model by means of the Iterative Closest Point alignment procedure. The quality of the extraction procedure is then evaluated from both a geometrical and an acoustical standpoint. As far as the geometrical evaluation is concerned, the Hausdorff Distance is used to asses how an extracted, low-resolution ear model is similar to the correspondent ground-truth, Laser Scanned ear model. Regarding the acoustical evaluation, both the low and the high-resolution models are used to numerically compute the HRTFs. The Spectral Distortion metric is used to evaluate the similarity of those HRTFs; the high similarity values show that the resolution of the proposed method is high enough to effectively provide the personalized HRTF within a frequency range of [20Hz-5000Hz]. To further investigate how human antrophometry and HRTFs features are linked, the relation between geometrical and acoustical similarity is deeper studied. The Perceptually Weighted Hausdorff Distance is used to include psychoacoustical considerations in the geometric similarity computation. A simple weighting schema allows to give more importance to the psychoacoustically relevant parts of the 3D ear. The result of the analysis performed on a dataset of 64 subjects highlights the existence of a direct correlation between similarity in the geometric and acoustical domains.

L’audio spaziale e la sintesi bineurale sono oggigiorno una componente fondamentale in numerosi sistemi commerciali di domotica e hi-fi. In questo mercato, i principali attori si affidano quasi esclusivamente a sistemi di altoparlanti per la riproduzione della scena acustica e fino ad ora le cuffie non sono state altrettanto impiegate. Un esteso utilizzo delle cuffie nella sintesi bineurale troverebbe applicazione in molteplici scenari dell’industria del multimedia. La capacita di localizzare nello spazio una sorgente sonora dipende fortemente dalla forma di orecchio,testa e torso di ciascun individuo. La loro anatomia determina specifiche caratteristiche di filtraggio che permettono di percepire il suono nell’ambiente. Queste caratteristiche sono codificate in una serie di filtri detti Head Related Transfer Function (HRTF). Tenendo conto dello stretto legame tra l’anatomia umana e le caratteristiche della HRTF, la necessita di una HRTF personalizzata è oggi riconosciuta. Le tradizionali tecniche di creazione di HRTF personalizzate si basano su acquisizioni acustiche complesse e costose; gli sviluppi delle tecniche numeriche, invece, permettono di calcolarle partendo da modelli 3D di testa, orecchie e torso. Tipicamente, questi modelli sono ottenuti tramite Laser Scanner o Risonanza Magnetica i quali forniscono risultati di alta qualità ma comportano alti costi e procedure complesse. La principale limitazione sta nella lunga durata delle acquisizioni. In questa tesi mi dedico alla generazione del modello 3D dell’orecchio utilizzando componenti commerciali a basso costo. L’obbiettivo principale è acquisire un modello 3D che possa trovare applicazione nel contesto dell’audio bineurale mantenendo il sistema di acquisizione il più semplice possibile. Il metodo proposto si basa su un approccio multi view che riduce notevolmente la complessità dell’acquisizione. Utilizzando un LeapMotion ed una Kinect si acquisiscono immagini dell’orecchio da diversi punti di vista che vengono poi processate per ottenere una nuvola di punti 3D. L’algoritmo di estrazione 3D sfrutta la geometria epipolare per associare coppie di punti nelle immagini che vengono poi triangolati per ottenere la nuvola di punti. Da ciascuna coppia di immagini si estrae una nuvola di punti, queste ultime sono poi fuse utilizzando la procedure di allineamento iterative Closest Point. La qualita dell’estrazione è valutata da un punto di vista sia geometrico che acustico. Nel primo caso la Hausdorff Distance è ultilizzata per confrontare il modello estratto (a bassa risoluzione) con un modello scansionato a Laser (ad alta risoluzione). Nel caso acustico, si calcola numericamente la HRTF da entrambi i modelli ad alta e bassa risoluzione. La metrica Spectral Distortion (SD) viene sfruttata per valutare le differenze di queste HRTF. I bassi valori di SD mostrano che la risoluzione del metodo proposto è sufficiente per ottenere HRTF personalizzate in un range frequenziale di [20Hz-5000Hz]. Inoltre, la relazione tra similarità acustica e geometrica di due modelli viene approfondita. La Perceptually Weighted Hausdorff Distance permette di includere considerazioni psicoacustiche attraverso un semplice sistema di pesatura: le parti del modello 3D percettivamente più rlevanti vengono pesate maggiormente delle altre. I risultati di questa analisi effetuata su 64 soggetti suggeriscono l’esistenza di una correlazione diretta tra somiglianza nel dominio geometrico e quello acustico.

3D models extraction for personalized binaural audio applications

BONACINA, LUCA
2013/2014

Abstract

Spatial and binaural audio is nowadays a fundamental component of many domotic and hi-fi commercial systems. The main players in this market rely mainly on loudspeakers systems to reproduce the audio scene but so far the headphones haven’t been largely exploited for this purpose. Moving the spatial audio rendering from loudspeakers to headphones would potentially enable a whole new set of scenarios for many fields of the media industry. The ability to localize a sound source in space strongly depends on the shape of each individual’s ears, head and upper torso. Their anatomy determines specific filtering features that give us the perception of sound in the environment. Those features are encoded in a set of filters known as Head Related Transfer Function (HRTF). HRTF generation is of great interest in the research community; considering the strong link between specific human anatomy and associated HRTF features, the need of a personalized HRTF is nowadays undisputed. Traditional personalized HRTF generation relies on complex acoustical measurements that requires expensive hardware; advances in numerical techniques allow to predict the HRTFs starting from 3D models of the head, ear and torso. Typically those models are extracted by using a Laser Scanner or MRI. Even though they provide high resolution models, these solutions are extremely expensive and complex. The main limitation resides in the long duration of the scan session. In my thesis I focus on the generation of the 3D model of a person’s ear using low-cost, off-the-shelf hardware. The main goal is to acquire 3D models that can find application in the context of binaural audio, while keeping the acquisition system simple and easy-to-use. The proposed 3D extraction method is based on a Multi View approach that greatly reduces the complexity of the 3D acquisition procedure. By using a Leap Motion and a Kinect device many images of the ear are captured from different viewpoints and then processed to obtain a 3D point cloud. The designed extraction algorithm works by exploiting the Epipolar Geometry to match couples of points in the acquired images; the matched points are then triangulated to extract the point cloud. One point cloud is extracted per each couples of captured images and then fused in a single 3D model by means of the Iterative Closest Point alignment procedure. The quality of the extraction procedure is then evaluated from both a geometrical and an acoustical standpoint. As far as the geometrical evaluation is concerned, the Hausdorff Distance is used to asses how an extracted, low-resolution ear model is similar to the correspondent ground-truth, Laser Scanned ear model. Regarding the acoustical evaluation, both the low and the high-resolution models are used to numerically compute the HRTFs. The Spectral Distortion metric is used to evaluate the similarity of those HRTFs; the high similarity values show that the resolution of the proposed method is high enough to effectively provide the personalized HRTF within a frequency range of [20Hz-5000Hz]. To further investigate how human antrophometry and HRTFs features are linked, the relation between geometrical and acoustical similarity is deeper studied. The Perceptually Weighted Hausdorff Distance is used to include psychoacoustical considerations in the geometric similarity computation. A simple weighting schema allows to give more importance to the psychoacoustically relevant parts of the 3D ear. The result of the analysis performed on a dataset of 64 subjects highlights the existence of a direct correlation between similarity in the geometric and acoustical domains.
CANCLINI, ANTONIO
MARCON, MARCO
ING - Scuola di Ingegneria Industriale e dell'Informazione
28-apr-2015
2013/2014
L’audio spaziale e la sintesi bineurale sono oggigiorno una componente fondamentale in numerosi sistemi commerciali di domotica e hi-fi. In questo mercato, i principali attori si affidano quasi esclusivamente a sistemi di altoparlanti per la riproduzione della scena acustica e fino ad ora le cuffie non sono state altrettanto impiegate. Un esteso utilizzo delle cuffie nella sintesi bineurale troverebbe applicazione in molteplici scenari dell’industria del multimedia. La capacita di localizzare nello spazio una sorgente sonora dipende fortemente dalla forma di orecchio,testa e torso di ciascun individuo. La loro anatomia determina specifiche caratteristiche di filtraggio che permettono di percepire il suono nell’ambiente. Queste caratteristiche sono codificate in una serie di filtri detti Head Related Transfer Function (HRTF). Tenendo conto dello stretto legame tra l’anatomia umana e le caratteristiche della HRTF, la necessita di una HRTF personalizzata è oggi riconosciuta. Le tradizionali tecniche di creazione di HRTF personalizzate si basano su acquisizioni acustiche complesse e costose; gli sviluppi delle tecniche numeriche, invece, permettono di calcolarle partendo da modelli 3D di testa, orecchie e torso. Tipicamente, questi modelli sono ottenuti tramite Laser Scanner o Risonanza Magnetica i quali forniscono risultati di alta qualità ma comportano alti costi e procedure complesse. La principale limitazione sta nella lunga durata delle acquisizioni. In questa tesi mi dedico alla generazione del modello 3D dell’orecchio utilizzando componenti commerciali a basso costo. L’obbiettivo principale è acquisire un modello 3D che possa trovare applicazione nel contesto dell’audio bineurale mantenendo il sistema di acquisizione il più semplice possibile. Il metodo proposto si basa su un approccio multi view che riduce notevolmente la complessità dell’acquisizione. Utilizzando un LeapMotion ed una Kinect si acquisiscono immagini dell’orecchio da diversi punti di vista che vengono poi processate per ottenere una nuvola di punti 3D. L’algoritmo di estrazione 3D sfrutta la geometria epipolare per associare coppie di punti nelle immagini che vengono poi triangolati per ottenere la nuvola di punti. Da ciascuna coppia di immagini si estrae una nuvola di punti, queste ultime sono poi fuse utilizzando la procedure di allineamento iterative Closest Point. La qualita dell’estrazione è valutata da un punto di vista sia geometrico che acustico. Nel primo caso la Hausdorff Distance è ultilizzata per confrontare il modello estratto (a bassa risoluzione) con un modello scansionato a Laser (ad alta risoluzione). Nel caso acustico, si calcola numericamente la HRTF da entrambi i modelli ad alta e bassa risoluzione. La metrica Spectral Distortion (SD) viene sfruttata per valutare le differenze di queste HRTF. I bassi valori di SD mostrano che la risoluzione del metodo proposto è sufficiente per ottenere HRTF personalizzate in un range frequenziale di [20Hz-5000Hz]. Inoltre, la relazione tra similarità acustica e geometrica di due modelli viene approfondita. La Perceptually Weighted Hausdorff Distance permette di includere considerazioni psicoacustiche attraverso un semplice sistema di pesatura: le parti del modello 3D percettivamente più rlevanti vengono pesate maggiormente delle altre. I risultati di questa analisi effetuata su 64 soggetti suggeriscono l’esistenza di una correlazione diretta tra somiglianza nel dominio geometrico e quello acustico.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
2015_04_Bonacina.pdf

accessibile in internet per tutti

Descrizione: Testo Della Tesi
Dimensione 27.25 MB
Formato Adobe PDF
27.25 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/103461