Voice emotion recognition for enhancing human machine interaction

The voice recognition is the ability, in the process of people’s communication, to listen to sounds and interpret them as words; men's ability to recognize and decode the emotional content is fundamental for this purpose. The algorithms developed in the past that were involved in this problem used voice recognition in association with facial expressivity analysis; this, of course, simplified the process of emotional recognition, considering the expressiveness of the human face. The work done in this thesis has gone further: the goal was creating, in MATLAB environment, a program that would allow the emotional recognition uniquely by voice. 10 emotions have been analysed. The applications achievable could be multiple: the program could be installed on robots, making a user friendly man-machine interaction, on smartphones, on tablets, or being integrated in social networks. Realizing a machine that allows the recognition of emotions expressed during a communication isn’t a totally new idea. Already in 1984 Van Bezooijen and then Tolkmitt & Scherer tried to do that. The core of emotional recognition is the creation of a database for any speaker. For each audio file acquired were extracted and, then, classified the characterizing features. The classification methods used in the context of emotions recognition refer to one of the core areas of artificial intelligence, known as “machine learning”. The algorithm has been developed aiming to the determination of the descriptive percentage composition of the emotional state of a speaker. The results of the tests were positive. It has been possible reaching 85% of emotional speech recognition.

Il riconoscimento della voce è la capacità, nel processo di comunicazione tra persone, di ascoltare suoni ed interpretarli come parole; per quest’ultime è fondamentale l’abilità dell’uomo di individuare e decodificare il contenuto emozionale. Gli algoritmi sviluppati in passato hanno affrontato il problema affiancando all’analisi vocale quella facciale; questo, ovviamente, è stato effettuato per semplificare il processo di riconoscimento emozionale, data la grande espressività del volto umano. Il lavoro svolto in questa tesi è andato oltre: l’obiettivo è stato quello di creare, in ambiente MATLAB, un programma che permettesse il riconoscimento emozionale dalla sola voce. Le emozioni analizzate sono state 10. Le applicazioni possono essere molteplici: il programma può essere installato nei robot, rendendo più immediata l’interazione uomo-macchina, negli smartphone, nei tablet o essere integrato nei social network. Non è un’idea completamente nuova quella di realizzare una macchina che permetta il riconoscimento delle emozioni espresse durante una comunicazione. Già nel 1984 ci provarono prima Van Bezooijen e poi Tolkmitt & Scherer. Alla base del riconoscimento emozionale vi è la creazione di un database per ogni utente. Per ciascun file audio acquisito sono state estratte ed, in seguito, classificate le caratteristiche principali. I metodi di classificazione impiegati nell’ambito del riconoscimento delle emozioni fanno riferimento ad una delle aree fondamentali dell’intelligenza artificiale, conosciuto come “apprendimento automatico” (o Machine Learning). L’algoritmo è stato sviluppato affinché permettesse di determinare una composizione percentuale descrittiva dello stato emozionale di uno speaker, non limitandosi alla mera assegnazione ad una singola classe fra quelle a disposizione. I test sviluppati, in seguito alla classificazione, hanno dato risultati incoraggianti. È stato possibile, infatti, ottenere tassi di riconoscimento dell’85%.