The head-related transfer function (HRTF) for a location describes the transfer characteristics for the sound waves as they travel from a sound source at that location to the ear canal in free space conditions. These transfer functions depend significantly on the individual's head, torso, and ear morphology and are highly idiosyncratic. The knowledge of these individualized acoustic transfer functions is crucial to present personalized 3D audio through binaural rendering. This thesis builds on the currently available knowledge on the HRTF personalization and aims to widen this knowledge space by presenting some studies. These studies can aid in modeling and understanding the relationship between the morphology of an individual and corresponding HRTFs and facilitate one to create a simple HRTF personalization method to estimate individualized HRTFs without performing acoustic measurements or long numerical simulations. This thesis work is a composite of many studies and concepts from different fields. These studies include primary signal processing techniques such as spectral analysis, notch extraction, principal component analysis (PCA), and sparse representation based modeling, the physics of numerical simulations like Fast-Multipole Boundary Element Methods (FM-BEM), and functional space analysis of shapes like large deformation diffeomorphic metric mapping (LDDMM), and kernel principal component analysis (KPCA) on LDDMM data. The studies performed in this thesis can be divided into two groups. The first set of works provides some preliminary studies which can be used to personalize the HRTFs based on anthropometric data. These studies are mainly performed on the CIPIC database, and focus on the personalization methods based on the anthropometric data. On the other hand, the second set of works presents the studies based on the morphoacoustic approach and considers 3D morphology data for subjects. This work aims to widen the understanding of the relationship between the outer ear shapes and the corresponding acoustics by studying the variations in both spaces separately and then finding a mapping between the variations in two spaces. All the studies presented in this group are performed on the SYMARE database. There are two studies in the first group. The first study provides a statistical analysis of the center frequencies of first notches in the HRTFs of CIPIC and SYMARE databases. The notches for the HRTFs in the median plane are extracted for both databases and clustered into three clusters using k-means. Each cluster represents the notch created due to one of the three main contours of the ear shape, as suggested in past studies. The centroids of the clusters show the evolution of notches in frequency as a function of elevation angles. The results are compared for two databases showing almost the same results. The results show that the mean value for three notch frequencies in both databases evolves monotonically for the first two notches as a function of elevation angle from -45 degrees to 45 degrees. In contrast, for the third notch, this frequency almost stays flat. The mean notch frequency for first, second, and third notches range from 6 kHz to 8.5 kHz, 10 kHz to 12 kHz, and 13.5 kHz to 14 kHz respectively. This study also compares these frequencies for left and right ears in both databases. The results show that these frequencies are not symmetric in both ears. This asymmetry suggests either the possible effectiveness of the binaural cues in the median plane or could be simply due to the asymmetry in the ear shapes of the involved subjects or measurement setup. The second study provides a preliminary HRTF personalization method based on weighted sparse representation based modeling. Like past sparse representation-based methods this method also relies on two strong assumptions, 1) the anthropometric features of the available subject set are rich enough to model the anthropometric features of any new subject, and 2) a same sparse modeling (linear combination) can be used to model both the anthropometric features as well as the corresponding HRTFs. However, the study presented in this work is different from the past sparse representation based HRTF personalization studies for two reasons. The first difference is that it uses a separate sparse representation for both left and right ears, while the past studies used the same model for both left and right ears. The reason to do so is the findings of our previous studies on notch analysis, which showed asymmetry in HRTF of both ears. The second difference and contribution of this work is the use of weighted sparse representation. The previous studies considered all the anthropometric parameters to be equally relevant while calculating the sparse representation. However, our work calculates the relevance of each of the available anthropometric parameters and use these relevance metrics as the weights to the sparse representation. Hence the name weighted sparse representation. Furthermore, this compares the results of the method with some famous closest-matching based personalization schemes and shows that it outperforms the previous techniques. In the second group of studies, the first work analyzes the effects of affine transformations of the ear shapes on the corresponding HRTFs. As a counter product, this study creates a synthetic database from SYMARE (one of its kind), which we call affine models for the SYMARE population. For the affine models, the ear shapes are affine matched with the template ear shape to have the same scale, orientation, and position. The affine matched ears are then attached to the template head and torso shapes to create a 3D model of the head, torso, and (affine matched ears), called an affine model. The benefits of creating an affine model can be multi-fold. The first and most important benefit of this is that it creates a simplistic paradigm to study the morphoacoustics of the ear shape, by limiting the variations to only ear shape variations, and removing all the variations due to different head and torso shapes, ear sizes, ear rotations, and position of the ears on the head. The second benefit is that it simplifies the process of modeling the ear shape as one has to model the shape variations only using LDDMM and KPCA, not the scale and rotation. Third, it supposedly simplifies the modeling process of the acoustics, as all the ear shapes are at the same scale, position, and rotation and are placed on the same head and torso shape. However, this may end up creating artifacts that outweigh all these benefits. This work investigates all these questions. In this work, we present a study that provides an analysis of how simple corrections such as frequency scaling of the HRTFs (to correct for the scales) and rotation of HRTF directivity patterns (to correct for the rotations) can significantly compensate for these affine transformations. This also studies and calculate the amount of inter-subject variations coming from affine matching vs. the original shape. Finally, the study calculates the optimal frequency scaling factor from a purely acoustic point of view, which matches the affine modeled HRTFs to the original HRTFs in the best way. These optimal scaling factors are then related to the physical scaling factors by using linear regression. The results show these scaling factors can be inferred simply by knowing the ear shape scaling factors coming from the affine matching process. The second study in this group provides a simple Spatial Principal Component Analysis (SPCA) based modeling method to analyze the variations in the acoustic directivity patterns of the HRTFs as a function of frequency. The directivity patterns of different frequencies are modeled separately, and the number of principal components required to model the directivity patterns for a given frequency is quantified for all the frequency bins in the frequency range from 0.2-17 kHz. This study reasserts the importance of the affine models by showing that the directivity patterns of the affine models can be described by using only eight principal components at even high frequencies up to 17 kHz, keeping the average standard spectral difference (SDD) of less than 3 dBs. Using the existing morphable model of the ear shapes this work model the ear shapes with just first eight principal components and showing results for some ears. Finally, using the eight principal components of the shape space, it estimates the acoustic principal components through linear regression to provide a simple personalization method for HRTFs. The last study in this work provides a novel idea of morphological weighting to create a weighted morphable model for ear shapes. This study proposes to assign different weights to different ear portions and use a weighted kernel for KPCA on LDDMM data to create a weighted morphable model. The results of this preliminary work show a better prediction for the acoustic principal components is achieved when weighted KPCA is used compared to traditional KPCA on LDDMM data. These insights are very interesting and suggest that with further work, this tool can be used to not just better prediction of personalized HRTFs but also could be an effective way to understand the contributions of different parts of the ear shapes as a variant of morphoacoustic perturbation analysis.

La Head-Related Transfer Function (HRTF) esprime la funzione di trasferimento delle onde sonore che viaggiano da una sorgente audio, posta ad una certa posizione nello spazio, fino al canale uditivo, in condizioni di spazio aperto. Queste funzioni di trasferimento, per tutte le posizioni, dipendono in modo significativo dalla morfologia della testa, del busto e dell’orecchio dell’individuo, e sono perciò molto idiosincrasiche, ovvero uniche da individuo a individuo. Lo studio di queste funzioni di trasferimento indivuali è cruciale per poter generare audio 3D attraverso rendering binaurale. Questa tesi parte dalle conoscenze odierne sulla personalizzazione della HRTF e mira ad allargare questa conoscenza. Gli studi presentati in questa tesi possono aiutare a capire e modellare la relazione che intercorre tra la morfologia di un individuo e la sua HRTF, e facilitare la creazione di un metodo semplice per la personalizzazione della HRTF, o stimare HRTF personalizzate, senza il bisogno di condurre misurazioni acustiche o lunghe simulazioni numeriche. Questa tesi si compone di diversi studi e concetti presi da diversi ambiti. Gli studi includono tecniche primarie di elaborazione dei segnali, come analisi spettrale, estrazione di notch, analisi delle componenti principali (principal component analysis, PCA), e modellazione basata su rappresentazioni ridotta (sparse), la fisica dietro a simulazioni numeriche come i metodi di compuazione veloce di elementi finiti con vincoli (Fast-Multipole Boundary Element Methods, FM-BEM), e analisi funzionale di forme come large deformation diffeomorphic metric mapping (LDDMM) e kernel principal component analysis (KPCA) su dati LDDMM. Gli studi condotti in questa tesi possono essere divisi in due gruppi. Il primo gruppo di lavori fornisce degli studi preliminari che possono essere utilizzati per personalizzare the HRTF a partire da dati antropometrici. Questi studi sono stati condotti principalmente sul database CIPIC, e si concentrano sui metodi di personalizzazione basati su dati antropometrici. Il secondo gruppo presenta studi basati sull’approccio morfoacustico e considera la morfologia 3D degli individui. Questo lavoro mira ad ampliare la comprensione della relazione tra le forme del padiglione auricolare e la relativa acustica studiando le variazioni in entambi gli spazi separatamente e poi trovando un collegamento tra le variazioni nei due spazi. Gli studi presentati nel secondo gruppo sono stati condotti sul database SYMARE. Il primo gruppo comprende due studi. Il primo studio fornisce un’analisi statistica delle frequenze centrali dei primi notch nelle HRTF dei database CIPIC e SYMARE. I notch delle HRTF sul piano mediano sono estratti da entrambi i database e raggruppati in tre cluster usando l’algoritmo k-means. Ogni cluster rappresenta il notch creato da ognuno dei tre contorni principali della forma dell’orecchio, come suggerito dalla letteratura. I centroidi dei cluster mostrano l’evoluzione dei notches in frequenza in funzione dell’angolo di elevazione. I risultati sono confrontati per i due database, mostrando praticamente gli stessi risultati. Questi risultati mostrano che il valore medio per le tre frequenze di notch in entrambi i database evolve monotonicamente per i primi due notch come in funzione dell’angolo di elevazione da -45 degrees a 45 degrees. Il terzo notch, invece, presenta una frequenza praticamente piatta. La frequenza di notch media per i primi tre notch è compresa rispettivamente: tra 6 kHz a 8.5 kHz, da 10 kHz a 12 kHz, e da 13.5 kHz a 14 kHz. Questo studio inoltre confronta queste frequenze per l’orecchio destro e sinistro in entrambi i database. I risultati mostrano che queste frequenze non sono simmetriche per entrambe le orecchio. L’asimmetria potrebbe essere causata o da una possibile efficacia di “indizi” binaurali sul piano mediano, o semplicemente dall’asimmetria delle forme delle orecchie dei soggetti coinvolti nella misurazione. Il secondo studio presenta un metodo preliminare per la personalizzazione della HRTF basata su una modellazione di una rappresentazione ridotta pesata. Come altri metodi basati su rappresentazione ridotta della letteratura, questo metodo assume che: 1) le caratteristiche antropometriche dei soggetti coinvolti siano sufficientemente informative da modellare le caratteristiche di nuovi soggetti e 2) la stessa modellazione ridotta (tramite combinazione lineare) può essere usata per modellare sia le caratteristiche antropometriche che le HRTF corrispondenti. Questo studio però si discosta dai metodi presentati in letterature in due modi. La prima differenza è l’utilizzo di due spazi di rappresentazione ridotta diversi per orecchio destro e sinistro, anziché un unico spazio. La scelta è motivata dalla suddetta analisi delle frequenze di notch che aveva mostrato un certo grado di asimmetria tra le orecchie. La seconda differenza è l’uso di una rappresentazione ridotta pesata, mentre gli studi in letteratura consideravano i parametri parametrici come equamente rilevanti nel calcolo della rappresentazione ridotta. Invece, il nostro lavoro calcola la rilevanza dei vari parametri e la utilizza come pesi della rappresentazione ridotta, da cui il nome di rappresentazione ridotta pesata. I risultati di questo approccio sono comparabili con alcuni metodi di personalizzazione basati sul closest-matching e sono migliori di molte tecniche della letteratura. Nel secondo gruppo di studi, il primo lavoro analizza gli effetti delle trasformazioni affini delle forme dell’orecchio sulle HRTF corrispondenti. Per realizzarlo, questo studio crea un database sintetico a partire dal (SYMARE), che abbiamo chiamato “modelli affini per la popolazione del SYMARE”. Per i modelli affini, le forme dell’orecchio sono combinate in modo affine con la forma base dell’orecchio in modo da avere stesso orientamento, dimensione e posizione. Gli orecchi così composti sono attaccati alle forme base di busto e testa per creare un modello 3D chiamato modello affine. I benefici di creare un modello affine sono molteplici. Il primo e principale è di creare un paradigma semplicistico per studiare la morfoacustica dell’orecchio, limitando le variazioni solo alle variazioni della forma dell’orecchio e rimuovendo quelle relative alla forma di testa e busto, o di dimensione, orientamento e posizione delle orecchie sulla testa. Il secondo vantaggio è che questo semplifica fortemente il processo di modellamento della forma dell’orecchio, in quanto bisogna modellare solo le variazioni usando LDDMM e KPCA, non dimensioni e rotazioni. Terzo beneficio è che semplifica il processo di modellazione dell’acustica, se tutte le forme dell’orecchio sono della stessa scala, posizione e rotazione, e sono posti sulle stesse forme di testa e busto. Ad ogni modo, questo potrebbe creare artefatti che superano i benefici. Questo lavoro affronta queste domande. In questo lavoro, presentiamo uno studio che fornisce un’analisi di come semplici correzioni come un ridimensionamento delle frequenze delle HRTF e una rotazione dei loro pattern di direttività possono significativamente compensare per tutte queste trasformazioni affini. Inoltre, presentiamo la quantità di variazioni inter-soggetti provenienti dall’abbinamento affine confrontati con la forma originaria. Infine, Questo studio calcola il fattore di scala ottimale per la frequenza a partire da un punto di vista puramente acustico, che abbina nel modo migliore le HRTF modellate in modo affine a quelle originarie. Questi fattori di scala ottimali sono poi collegati ai fattori di scala fisici usando una regressione lineare. I risultati mostra che i fattori di scala possono essere dedotti semplicemente conoscendo la forma dell’orecchio e i fattori di scala che arrivano dal processo di abbinamento affine. Il secondo studio in questo gruppo fornisce un semplice metodo di modellazione basato sull'analisi dei componenti principali spaziali (SPCA) per analizzare le variazioni dei modelli di direttività acustica delle HRTF in funzione della frequenza. I modelli di direttività di frequenze diverse sono modellati separatamente e il numero di componenti principali richiesti per modellare i modelli di direttività per una data frequenza è quantificato per tutti i bin di frequenza nella gamma di frequenza da 0,2-17 kHz. Questo studio riafferma l'importanza dei modelli affini dimostrando che i modelli di direttività dei modelli affini possono essere descritti usando solo otto componenti principali a frequenze anche elevate fino a 17 kHz, mantenendo la differenza spettrale standard media (SDD) inferiore a 3 dB. Utilizzando il modello morfologico esistente delle forme dell'orecchio, questo lavoro modella le forme dell'orecchio con solo i primi otto componenti principali e mostrando risultati per alcuni padiglioni auricolari. Infine, utilizzando le otto componenti principali dello spazio della forma, stima i componenti acustici principali attraverso la regressione lineare per fornire un semplice metodo di personalizzazione delle HRTF. L'ultimo studio in questo lavoro fornisce una idea innovativa di ponderazione morfologica per creare un modello morfologico pesato per le forme dell'orecchio. Questo studio propone di assegnare pesi diversi a diverse porzioni dell'orecchio e di utilizzare un kernel pesato per eseguire una KPCA su dati LDDMM per creare un modello misurabile ponderato. I risultati di questo lavoro preliminare mostrano una migliore previsione per le componenti acustiche principali quando si utilizza KPCA pesato rispetto al KPCA tradizionale su dati LDDMM. Queste intuizioni sono molto interessanti e suggeriscono che con un ulteriore lavoro, questo strumento può essere utilizzato non solo per una migliore predizione delle HRTF personalizzati, ma potrebbe anche essere un modo efficace per comprendere i contributi di diverse parti delle forme dell'orecchio come una variante dell'analisi delle perturbazioni morfoacoacustiche.

A Morphoacoustic Approach Towards Head-Related Transfer Function Personalization

SHAHNAWAZ, MUHAMMAD

Abstract

The head-related transfer function (HRTF) for a location describes the transfer characteristics for the sound waves as they travel from a sound source at that location to the ear canal in free space conditions. These transfer functions depend significantly on the individual's head, torso, and ear morphology and are highly idiosyncratic. The knowledge of these individualized acoustic transfer functions is crucial to present personalized 3D audio through binaural rendering. This thesis builds on the currently available knowledge on the HRTF personalization and aims to widen this knowledge space by presenting some studies. These studies can aid in modeling and understanding the relationship between the morphology of an individual and corresponding HRTFs and facilitate one to create a simple HRTF personalization method to estimate individualized HRTFs without performing acoustic measurements or long numerical simulations. This thesis work is a composite of many studies and concepts from different fields. These studies include primary signal processing techniques such as spectral analysis, notch extraction, principal component analysis (PCA), and sparse representation based modeling, the physics of numerical simulations like Fast-Multipole Boundary Element Methods (FM-BEM), and functional space analysis of shapes like large deformation diffeomorphic metric mapping (LDDMM), and kernel principal component analysis (KPCA) on LDDMM data. The studies performed in this thesis can be divided into two groups. The first set of works provides some preliminary studies which can be used to personalize the HRTFs based on anthropometric data. These studies are mainly performed on the CIPIC database, and focus on the personalization methods based on the anthropometric data. On the other hand, the second set of works presents the studies based on the morphoacoustic approach and considers 3D morphology data for subjects. This work aims to widen the understanding of the relationship between the outer ear shapes and the corresponding acoustics by studying the variations in both spaces separately and then finding a mapping between the variations in two spaces. All the studies presented in this group are performed on the SYMARE database. There are two studies in the first group. The first study provides a statistical analysis of the center frequencies of first notches in the HRTFs of CIPIC and SYMARE databases. The notches for the HRTFs in the median plane are extracted for both databases and clustered into three clusters using k-means. Each cluster represents the notch created due to one of the three main contours of the ear shape, as suggested in past studies. The centroids of the clusters show the evolution of notches in frequency as a function of elevation angles. The results are compared for two databases showing almost the same results. The results show that the mean value for three notch frequencies in both databases evolves monotonically for the first two notches as a function of elevation angle from -45 degrees to 45 degrees. In contrast, for the third notch, this frequency almost stays flat. The mean notch frequency for first, second, and third notches range from 6 kHz to 8.5 kHz, 10 kHz to 12 kHz, and 13.5 kHz to 14 kHz respectively. This study also compares these frequencies for left and right ears in both databases. The results show that these frequencies are not symmetric in both ears. This asymmetry suggests either the possible effectiveness of the binaural cues in the median plane or could be simply due to the asymmetry in the ear shapes of the involved subjects or measurement setup. The second study provides a preliminary HRTF personalization method based on weighted sparse representation based modeling. Like past sparse representation-based methods this method also relies on two strong assumptions, 1) the anthropometric features of the available subject set are rich enough to model the anthropometric features of any new subject, and 2) a same sparse modeling (linear combination) can be used to model both the anthropometric features as well as the corresponding HRTFs. However, the study presented in this work is different from the past sparse representation based HRTF personalization studies for two reasons. The first difference is that it uses a separate sparse representation for both left and right ears, while the past studies used the same model for both left and right ears. The reason to do so is the findings of our previous studies on notch analysis, which showed asymmetry in HRTF of both ears. The second difference and contribution of this work is the use of weighted sparse representation. The previous studies considered all the anthropometric parameters to be equally relevant while calculating the sparse representation. However, our work calculates the relevance of each of the available anthropometric parameters and use these relevance metrics as the weights to the sparse representation. Hence the name weighted sparse representation. Furthermore, this compares the results of the method with some famous closest-matching based personalization schemes and shows that it outperforms the previous techniques. In the second group of studies, the first work analyzes the effects of affine transformations of the ear shapes on the corresponding HRTFs. As a counter product, this study creates a synthetic database from SYMARE (one of its kind), which we call affine models for the SYMARE population. For the affine models, the ear shapes are affine matched with the template ear shape to have the same scale, orientation, and position. The affine matched ears are then attached to the template head and torso shapes to create a 3D model of the head, torso, and (affine matched ears), called an affine model. The benefits of creating an affine model can be multi-fold. The first and most important benefit of this is that it creates a simplistic paradigm to study the morphoacoustics of the ear shape, by limiting the variations to only ear shape variations, and removing all the variations due to different head and torso shapes, ear sizes, ear rotations, and position of the ears on the head. The second benefit is that it simplifies the process of modeling the ear shape as one has to model the shape variations only using LDDMM and KPCA, not the scale and rotation. Third, it supposedly simplifies the modeling process of the acoustics, as all the ear shapes are at the same scale, position, and rotation and are placed on the same head and torso shape. However, this may end up creating artifacts that outweigh all these benefits. This work investigates all these questions. In this work, we present a study that provides an analysis of how simple corrections such as frequency scaling of the HRTFs (to correct for the scales) and rotation of HRTF directivity patterns (to correct for the rotations) can significantly compensate for these affine transformations. This also studies and calculate the amount of inter-subject variations coming from affine matching vs. the original shape. Finally, the study calculates the optimal frequency scaling factor from a purely acoustic point of view, which matches the affine modeled HRTFs to the original HRTFs in the best way. These optimal scaling factors are then related to the physical scaling factors by using linear regression. The results show these scaling factors can be inferred simply by knowing the ear shape scaling factors coming from the affine matching process. The second study in this group provides a simple Spatial Principal Component Analysis (SPCA) based modeling method to analyze the variations in the acoustic directivity patterns of the HRTFs as a function of frequency. The directivity patterns of different frequencies are modeled separately, and the number of principal components required to model the directivity patterns for a given frequency is quantified for all the frequency bins in the frequency range from 0.2-17 kHz. This study reasserts the importance of the affine models by showing that the directivity patterns of the affine models can be described by using only eight principal components at even high frequencies up to 17 kHz, keeping the average standard spectral difference (SDD) of less than 3 dBs. Using the existing morphable model of the ear shapes this work model the ear shapes with just first eight principal components and showing results for some ears. Finally, using the eight principal components of the shape space, it estimates the acoustic principal components through linear regression to provide a simple personalization method for HRTFs. The last study in this work provides a novel idea of morphological weighting to create a weighted morphable model for ear shapes. This study proposes to assign different weights to different ear portions and use a weighted kernel for KPCA on LDDMM data to create a weighted morphable model. The results of this preliminary work show a better prediction for the acoustic principal components is achieved when weighted KPCA is used compared to traditional KPCA on LDDMM data. These insights are very interesting and suggest that with further work, this tool can be used to not just better prediction of personalized HRTFs but also could be an effective way to understand the contributions of different parts of the ear shapes as a variant of morphoacoustic perturbation analysis.
PERNICI, BARBARA
MONTI-GUARNIERI, ANDREA VIRGILIO
28-feb-2020
A Morphoacoustic Approach Towards Head-Related Transfer Function Personalization
La Head-Related Transfer Function (HRTF) esprime la funzione di trasferimento delle onde sonore che viaggiano da una sorgente audio, posta ad una certa posizione nello spazio, fino al canale uditivo, in condizioni di spazio aperto. Queste funzioni di trasferimento, per tutte le posizioni, dipendono in modo significativo dalla morfologia della testa, del busto e dell’orecchio dell’individuo, e sono perciò molto idiosincrasiche, ovvero uniche da individuo a individuo. Lo studio di queste funzioni di trasferimento indivuali è cruciale per poter generare audio 3D attraverso rendering binaurale. Questa tesi parte dalle conoscenze odierne sulla personalizzazione della HRTF e mira ad allargare questa conoscenza. Gli studi presentati in questa tesi possono aiutare a capire e modellare la relazione che intercorre tra la morfologia di un individuo e la sua HRTF, e facilitare la creazione di un metodo semplice per la personalizzazione della HRTF, o stimare HRTF personalizzate, senza il bisogno di condurre misurazioni acustiche o lunghe simulazioni numeriche. Questa tesi si compone di diversi studi e concetti presi da diversi ambiti. Gli studi includono tecniche primarie di elaborazione dei segnali, come analisi spettrale, estrazione di notch, analisi delle componenti principali (principal component analysis, PCA), e modellazione basata su rappresentazioni ridotta (sparse), la fisica dietro a simulazioni numeriche come i metodi di compuazione veloce di elementi finiti con vincoli (Fast-Multipole Boundary Element Methods, FM-BEM), e analisi funzionale di forme come large deformation diffeomorphic metric mapping (LDDMM) e kernel principal component analysis (KPCA) su dati LDDMM. Gli studi condotti in questa tesi possono essere divisi in due gruppi. Il primo gruppo di lavori fornisce degli studi preliminari che possono essere utilizzati per personalizzare the HRTF a partire da dati antropometrici. Questi studi sono stati condotti principalmente sul database CIPIC, e si concentrano sui metodi di personalizzazione basati su dati antropometrici. Il secondo gruppo presenta studi basati sull’approccio morfoacustico e considera la morfologia 3D degli individui. Questo lavoro mira ad ampliare la comprensione della relazione tra le forme del padiglione auricolare e la relativa acustica studiando le variazioni in entambi gli spazi separatamente e poi trovando un collegamento tra le variazioni nei due spazi. Gli studi presentati nel secondo gruppo sono stati condotti sul database SYMARE. Il primo gruppo comprende due studi. Il primo studio fornisce un’analisi statistica delle frequenze centrali dei primi notch nelle HRTF dei database CIPIC e SYMARE. I notch delle HRTF sul piano mediano sono estratti da entrambi i database e raggruppati in tre cluster usando l’algoritmo k-means. Ogni cluster rappresenta il notch creato da ognuno dei tre contorni principali della forma dell’orecchio, come suggerito dalla letteratura. I centroidi dei cluster mostrano l’evoluzione dei notches in frequenza in funzione dell’angolo di elevazione. I risultati sono confrontati per i due database, mostrando praticamente gli stessi risultati. Questi risultati mostrano che il valore medio per le tre frequenze di notch in entrambi i database evolve monotonicamente per i primi due notch come in funzione dell’angolo di elevazione da -45 degrees a 45 degrees. Il terzo notch, invece, presenta una frequenza praticamente piatta. La frequenza di notch media per i primi tre notch è compresa rispettivamente: tra 6 kHz a 8.5 kHz, da 10 kHz a 12 kHz, e da 13.5 kHz a 14 kHz. Questo studio inoltre confronta queste frequenze per l’orecchio destro e sinistro in entrambi i database. I risultati mostrano che queste frequenze non sono simmetriche per entrambe le orecchio. L’asimmetria potrebbe essere causata o da una possibile efficacia di “indizi” binaurali sul piano mediano, o semplicemente dall’asimmetria delle forme delle orecchie dei soggetti coinvolti nella misurazione. Il secondo studio presenta un metodo preliminare per la personalizzazione della HRTF basata su una modellazione di una rappresentazione ridotta pesata. Come altri metodi basati su rappresentazione ridotta della letteratura, questo metodo assume che: 1) le caratteristiche antropometriche dei soggetti coinvolti siano sufficientemente informative da modellare le caratteristiche di nuovi soggetti e 2) la stessa modellazione ridotta (tramite combinazione lineare) può essere usata per modellare sia le caratteristiche antropometriche che le HRTF corrispondenti. Questo studio però si discosta dai metodi presentati in letterature in due modi. La prima differenza è l’utilizzo di due spazi di rappresentazione ridotta diversi per orecchio destro e sinistro, anziché un unico spazio. La scelta è motivata dalla suddetta analisi delle frequenze di notch che aveva mostrato un certo grado di asimmetria tra le orecchie. La seconda differenza è l’uso di una rappresentazione ridotta pesata, mentre gli studi in letteratura consideravano i parametri parametrici come equamente rilevanti nel calcolo della rappresentazione ridotta. Invece, il nostro lavoro calcola la rilevanza dei vari parametri e la utilizza come pesi della rappresentazione ridotta, da cui il nome di rappresentazione ridotta pesata. I risultati di questo approccio sono comparabili con alcuni metodi di personalizzazione basati sul closest-matching e sono migliori di molte tecniche della letteratura. Nel secondo gruppo di studi, il primo lavoro analizza gli effetti delle trasformazioni affini delle forme dell’orecchio sulle HRTF corrispondenti. Per realizzarlo, questo studio crea un database sintetico a partire dal (SYMARE), che abbiamo chiamato “modelli affini per la popolazione del SYMARE”. Per i modelli affini, le forme dell’orecchio sono combinate in modo affine con la forma base dell’orecchio in modo da avere stesso orientamento, dimensione e posizione. Gli orecchi così composti sono attaccati alle forme base di busto e testa per creare un modello 3D chiamato modello affine. I benefici di creare un modello affine sono molteplici. Il primo e principale è di creare un paradigma semplicistico per studiare la morfoacustica dell’orecchio, limitando le variazioni solo alle variazioni della forma dell’orecchio e rimuovendo quelle relative alla forma di testa e busto, o di dimensione, orientamento e posizione delle orecchie sulla testa. Il secondo vantaggio è che questo semplifica fortemente il processo di modellamento della forma dell’orecchio, in quanto bisogna modellare solo le variazioni usando LDDMM e KPCA, non dimensioni e rotazioni. Terzo beneficio è che semplifica il processo di modellazione dell’acustica, se tutte le forme dell’orecchio sono della stessa scala, posizione e rotazione, e sono posti sulle stesse forme di testa e busto. Ad ogni modo, questo potrebbe creare artefatti che superano i benefici. Questo lavoro affronta queste domande. In questo lavoro, presentiamo uno studio che fornisce un’analisi di come semplici correzioni come un ridimensionamento delle frequenze delle HRTF e una rotazione dei loro pattern di direttività possono significativamente compensare per tutte queste trasformazioni affini. Inoltre, presentiamo la quantità di variazioni inter-soggetti provenienti dall’abbinamento affine confrontati con la forma originaria. Infine, Questo studio calcola il fattore di scala ottimale per la frequenza a partire da un punto di vista puramente acustico, che abbina nel modo migliore le HRTF modellate in modo affine a quelle originarie. Questi fattori di scala ottimali sono poi collegati ai fattori di scala fisici usando una regressione lineare. I risultati mostra che i fattori di scala possono essere dedotti semplicemente conoscendo la forma dell’orecchio e i fattori di scala che arrivano dal processo di abbinamento affine. Il secondo studio in questo gruppo fornisce un semplice metodo di modellazione basato sull'analisi dei componenti principali spaziali (SPCA) per analizzare le variazioni dei modelli di direttività acustica delle HRTF in funzione della frequenza. I modelli di direttività di frequenze diverse sono modellati separatamente e il numero di componenti principali richiesti per modellare i modelli di direttività per una data frequenza è quantificato per tutti i bin di frequenza nella gamma di frequenza da 0,2-17 kHz. Questo studio riafferma l'importanza dei modelli affini dimostrando che i modelli di direttività dei modelli affini possono essere descritti usando solo otto componenti principali a frequenze anche elevate fino a 17 kHz, mantenendo la differenza spettrale standard media (SDD) inferiore a 3 dB. Utilizzando il modello morfologico esistente delle forme dell'orecchio, questo lavoro modella le forme dell'orecchio con solo i primi otto componenti principali e mostrando risultati per alcuni padiglioni auricolari. Infine, utilizzando le otto componenti principali dello spazio della forma, stima i componenti acustici principali attraverso la regressione lineare per fornire un semplice metodo di personalizzazione delle HRTF. L'ultimo studio in questo lavoro fornisce una idea innovativa di ponderazione morfologica per creare un modello morfologico pesato per le forme dell'orecchio. Questo studio propone di assegnare pesi diversi a diverse porzioni dell'orecchio e di utilizzare un kernel pesato per eseguire una KPCA su dati LDDMM per creare un modello misurabile ponderato. I risultati di questo lavoro preliminare mostrano una migliore previsione per le componenti acustiche principali quando si utilizza KPCA pesato rispetto al KPCA tradizionale su dati LDDMM. Queste intuizioni sono molto interessanti e suggeriscono che con un ulteriore lavoro, questo strumento può essere utilizzato non solo per una migliore predizione delle HRTF personalizzati, ma potrebbe anche essere un modo efficace per comprendere i contributi di diverse parti delle forme dell'orecchio come una variante dell'analisi delle perturbazioni morfoacoacustiche.
Tesi di dottorato
File allegati
File Dimensione Formato  
thesis.pdf

Open Access dal 09/02/2021

Descrizione: Thesis main draft
Dimensione 53.85 MB
Formato Adobe PDF
53.85 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/169288