Sound source localization is an easy and natural task for humans, but it's very hard to create a model for it and make it effiient and feasible for a machine. How human beings can detect where another person is speaking from is based on a very complex process, and, in the last years, many studies on these types of algorithms were developed, based on different algebraic and mathematical models. The audio processing tasks have not been deeply developed in robotics and artifcial intelligence. The binaural speech localization task is an ongoing branch of research whose future development in robotics are fundamental to obtain machines that can interact with human beings. The aim of this thesis is to analyze some of the existing state-of-the-art systems, to find out pros and cons making experiments and simulations with Matlab and in the laboratory and to obtain new knowledge for a new branch of research. The final aim is to propose the assessment and the optimization of a state-of-the-art binaural speech localization algorithm for a robotic application. We started our work searching for the most advanced sound source localization systems developed in the last years, we selected and analyzed the algorithms that can be applied on a robot and then we characterised the state-of-the-art. We built up an experimental setup to assess an algorithm in a real environment and to test different assumptions we did on the audio signal processing useful to obtain better localization performance than the original algorithms. This research led to the proposal of an improved localization algorithm that works not only in ideal situations, but also in a common reverberating room.

La localizzazione di fonti sonore è un compito semplice e naturale per un umano, ma è molto difficile creare un modello che descriva questa capacità e che sia efficiente per una macchina. Il modo con cui gli esseri umani capiscono dove si trova una persona che sta parlando si basa su un processo molto complesso, e, negli ultimi anni, molti studi su questi tipi di algoritmi sono stati sviluppati, basati su diversi modelli algebrici e matematici. L'elaborazione di segnali audio non è stata ancora sviluppata a fondo nella robotica e nel campo dell'intelligenza artificiale. La capacità di fare localizzazione binaurale su suoni emessi dall'uomo rappresenta un ramo di ricerca attuale, i cui futuri sviluppi nella robotica sono fondamentali per ottenere macchine che possano interagire con gli esseri umani. Lo scopo di questa tesi è di analizzare alcuni degli esistenti sistemi, trovare gli aspetti positivi e negativi tramite esperimenti e simulazioni con Matlab e nel laboratorio per ottenere nuove conoscenze per un nuovo ramo di ricerca. Lo scopo finale è quello di proporre una valutazione e l'ottimizzazione di un algoritmo di localizzazione binaurale di suoni naturali emessi da un uomo da applicare a un robot. Abbiamo iniziato il nostro lavoro cercando i più importanti sistemi di localizzazione di fonti sonore sviluppati negli ultimi anni, abbiamo selezionato e analizzato gli algoritmi che possono essere applicati a un robot e, in seguito, abbiamo caratterizzato lo stato dell'arte. Abbiamo costruito un setup sperimentale per riprodurre un algoritmo in un ambiente reale e per testare le diverse assunzioni fatte sull'elaborazione dei segnali audio utili ad ottenere migliori risultati di localizzazione rispetto agli algoritmi descritti originariamente. Questa ricerca conduce alla proposta di un algoritmo di localizzazione migliorato che può lavorare non solo in condizioni ideali ma anche in una qualsiasi stanza reverberante.

Assessment and improvement of state-of-the-art robot binaural hearing

PRADOLINI, SIMONE
2015/2016

Abstract

Sound source localization is an easy and natural task for humans, but it's very hard to create a model for it and make it effiient and feasible for a machine. How human beings can detect where another person is speaking from is based on a very complex process, and, in the last years, many studies on these types of algorithms were developed, based on different algebraic and mathematical models. The audio processing tasks have not been deeply developed in robotics and artifcial intelligence. The binaural speech localization task is an ongoing branch of research whose future development in robotics are fundamental to obtain machines that can interact with human beings. The aim of this thesis is to analyze some of the existing state-of-the-art systems, to find out pros and cons making experiments and simulations with Matlab and in the laboratory and to obtain new knowledge for a new branch of research. The final aim is to propose the assessment and the optimization of a state-of-the-art binaural speech localization algorithm for a robotic application. We started our work searching for the most advanced sound source localization systems developed in the last years, we selected and analyzed the algorithms that can be applied on a robot and then we characterised the state-of-the-art. We built up an experimental setup to assess an algorithm in a real environment and to test different assumptions we did on the audio signal processing useful to obtain better localization performance than the original algorithms. This research led to the proposal of an improved localization algorithm that works not only in ideal situations, but also in a common reverberating room.
FONTANA, GIULIO ANGELO
ING - Scuola di Ingegneria Industriale e dell'Informazione
28-apr-2016
2015/2016
La localizzazione di fonti sonore è un compito semplice e naturale per un umano, ma è molto difficile creare un modello che descriva questa capacità e che sia efficiente per una macchina. Il modo con cui gli esseri umani capiscono dove si trova una persona che sta parlando si basa su un processo molto complesso, e, negli ultimi anni, molti studi su questi tipi di algoritmi sono stati sviluppati, basati su diversi modelli algebrici e matematici. L'elaborazione di segnali audio non è stata ancora sviluppata a fondo nella robotica e nel campo dell'intelligenza artificiale. La capacità di fare localizzazione binaurale su suoni emessi dall'uomo rappresenta un ramo di ricerca attuale, i cui futuri sviluppi nella robotica sono fondamentali per ottenere macchine che possano interagire con gli esseri umani. Lo scopo di questa tesi è di analizzare alcuni degli esistenti sistemi, trovare gli aspetti positivi e negativi tramite esperimenti e simulazioni con Matlab e nel laboratorio per ottenere nuove conoscenze per un nuovo ramo di ricerca. Lo scopo finale è quello di proporre una valutazione e l'ottimizzazione di un algoritmo di localizzazione binaurale di suoni naturali emessi da un uomo da applicare a un robot. Abbiamo iniziato il nostro lavoro cercando i più importanti sistemi di localizzazione di fonti sonore sviluppati negli ultimi anni, abbiamo selezionato e analizzato gli algoritmi che possono essere applicati a un robot e, in seguito, abbiamo caratterizzato lo stato dell'arte. Abbiamo costruito un setup sperimentale per riprodurre un algoritmo in un ambiente reale e per testare le diverse assunzioni fatte sull'elaborazione dei segnali audio utili ad ottenere migliori risultati di localizzazione rispetto agli algoritmi descritti originariamente. Questa ricerca conduce alla proposta di un algoritmo di localizzazione migliorato che può lavorare non solo in condizioni ideali ma anche in una qualsiasi stanza reverberante.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
2016_04_Pradolini.pdf

accessibile in internet per tutti

Descrizione: Testo della tesi
Dimensione 12.61 MB
Formato Adobe PDF
12.61 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/119404