A method for HRTF personalization : weighted sparse representation synthesis of HRTFs

Audio is one of the most effective and convenient methods of communicating information. Nowadays, many personal devices like PDAs, mobile, tablets demand spatial audio reproduction to be achieved on personal devices. One of the most popular ways to achieve spatial audio reproduction is using the headphone to reproduce the sound signal processed by the Head-related transfer function (HRTF). HRTF describes the spectral modifications that are characteristics of a source in a given location with respect to the listener. The time-domain equivalent of this transfer function is known as Head Related Impulse Response (HRIR). As confirmed by many studies, HRTFs are highly idiosyncratic due to their strong dependence on the listener\rq s anatomy and personalized head-related transfer functions (HRTFs) are essential for presenting authentic spatial audio through binaural rendering. However, measuring personalized HRTFs for every user is a tedious task and requires a specialized equipment. It is necessary for us to find out an alternative technique of HRTF personalization In this work, we introduce a simple and effective HRTF personalization method. Our method is based on weighted anthropometric sparse representation with preprocessing and postprocessing methods. We follow a strong assumption that the HRTF of a group can be represented using the same representation as is for the anthropometry. Unlike, previous sparse representation methods, our method assigns different weights to different anthropometric features depending on their relevance. All the experimentation presented in this study is done on CIPIC database e. We also compared the results of our approach with traditional sparse representation and three different closest-match based approaches. Our results demonstrate that by using only 17 anthropometric features, our method can outperform all previous approaches resulting an average spectral distortion value of 5.53 dBs.

Audio e uno dei metodi piu efficaci e piu convenienti per comunicare le informazioni. Al giorno d'oggi, molti dispositivi personali come PDA, cellulari, tablet richiedono riproduzione audio spaziale da realizzare sui dispositivi personali. Uno dei modi piu diffusi per ottenere la riproduzione audio 3D e utilizzare la cuffia per riprodurre il segnale sonoro elaborato dalla funzione di trasferimento della testa (HRTF). La funzione di trasferimento a testa correlata (HRTF) descrive le modifiche spettrali che sono caratteristiche di una sorgente in una data posizione rispetto all'ascoltatore. L'equivalente del dominio di tempo di questa funzione di trasferimento e conosciuto come Head Related Respulse Response (HRIR). Come confermato da molti studi, i HRTF sono altamente idiosincratici a causa della loro forte dipendenza dall'anatomia degli ascoltatori e dalle funzioni personalizzate di trasferimento della testa (HRTFs) sono essenziali per la presentazione di audio spaziale autentico tramite rendering binaurale. Tuttavia, la misurazione di HRTF personalizzati per ogni utente e un compito noioso e richiede una attrezzatura specializzata. E necessario per noi scoprire una tecnica alternativa di personalizzazione HRTF In questo lavoro introdurremo un metodo di personalizzazione HRTF semplice ed efficace. Il nostro metodo e basato su una rappresentazione ponderata antropometrica pesata con metodi di precaricamento e postprocessing. Seguiremo un forte presupposto che l'HRTF di un gruppo puo essere rappresentato utilizzando la stessa rappresentazione che e per l'antropometria. A differenza dei metodi di rappresentazione sparse precedenti, il nostro metodo assegna pesi diversi a diverse caratteristiche antropometriche a seconda della loro pertinenza, tutte le funzionalita antropometriche utilizzate possono essere misurate da tre immagini scalate di soggetto. Tutta la sperimentazione e fatta sul database CIPIC. Abbiamo confrontato i risultati del nostro approccio con la rappresentazione sparsa in precedenza disponibile e individuando i tre diversi approcci basati su match-match. I nostri risultati dimostrano che utilizzando solo 17 funzioni antropometriche, il nostro metodo puo superare gli approcci precedenti con una media valore di distorsione spettrale di 5,53 dB.