Speech emotion recognition: a benchmark of different machine learning algorithms and potential clinical applications

Speech Emotion Recognition (SER) is a growing field which focuses on detecting the emotional state of a speaker based on their speech patterns. SER has numerous potential applications in healthcare, where it could be used to improve mental health diagnoses and treatment. Nevertheless, several challenges are associated with this field, particularly those related to privacy. The aim of this work is the development of a supervised-learning classifier to detect emotions, trying to mitigate privacy issues through the use of features and images extracted from audio signals. Features and images were extracted from Emozionalmente dataset, a crowdsourced corpus containing 6902 recordings of Italian-speaking subjects. Classification was performed both to detect the seven core emotions and to predict values of valence and arousal. These tasks were performed separately in a speaker-independent fashion applying Machine Learning (ML), Deep Learning (DL) and Transfer Learning (TL) algorithms. The best results with ML achieved 0.39, 0.54, and 0.5 of F1-scores, respectively, with CatBoost classifier. Deep Learning algorithms achieved 0.47, 0.60, and 0.58, while Transfer Learning obtained 0.43 with MobileNet, 0.53, and 0.53 with Xception network. Also experiments in a speaker-dependent fashion with ML were performed, achieving F1-scores of 0.57, 0.62 and 0.67, respectively for emotions, valence and arousal. Since the final objective of this study is the development of a mobile app for the ecologically momentary assessment of the quality of life of lung cancer patients, within the project i3Lung, voice samples from patients were collected at Isituto Nazionale Tumori (INT) and the previously-trained best ML model was evaluated on new samples, obtaining F1-scores of 0.27 and 0.18 in speaker-independent and speaker-dependent experiments for emotions classification. The results of this study suggest that it is possible to develop a speaker-dependent speech emotion recognition algorithm for long-term monitoring of patients quality of life preserving privacy but an initial phase in which the algorithm is trained on enough data coming from each single subject is required.

Il riconoscimento delle emozioni vocali (Speech Emotion Recognition, SER) è un campo in crescita che si concentra sul rilevamento dello stato emotivo di una persona in base ai suoi pattern vocali. Il SER ha numerose potenziali applicazioni nel settore sanitario, dove potrebbe essere utilizzato per migliorare la diagnosi e il trattamento della salute mentale. Tuttavia, diverse problematiche sono associate a questo campo, in particolare quelle relative alla privacy. Lo scopo di questo lavoro è lo sviluppo di un classificatore per rilevare le emozioni, cercando di mitigare i problemi di privacy attraverso l'uso di features e immagini estratte da segnali audio. Le caratteristiche e le immagini sono state estratte dal dataset Emozionalmente, un corpus crowdsourced contenente 6902 registrazioni di soggetti in lingua italiana. La classificazione è stata eseguita sia per individuare le sette emozioni principali sia per prevedere i valori di valenza ed eccitazione. Questi compiti sono stati eseguiti separatamente in modo speaker-independent applicando Machine Learning (ML), Deep Learning (DL) e Transfer Learning (TL). I migliori risultati con ML hanno raggiunto rispettivamente 0.39, 0.54 e 0.5 di F1-score con il classificatore CatBoost. L'algoritmo di Deep Learning ha ottenuto 0.47, 0.60 e 0.58, mentre Transfer Learning ha ottenuto 0.43 con MobileNet, 0.53 e 0.53 con la rete Xception. Sono stati eseguiti anche esperimenti in modalità speaker-dependent con ML, ottenendo F1-score di 0.57, 0.62 e 0.67 rispettivamente nella classificazione di emozioni, valenza e eccitazione. L'obiettivo finale di questo studio è lo sviluppo di un'applicazione mobile per la valutazione ecologica momentanea della qualità della vita dei pazienti affetti da cancro ai polmoni, nell'ambito del progetto i3Lung. Pertanto, sono stati raccolti campioni vocali di pazienti presso l'Isituto Nazionale Tumori (INT) e il modello ML addestrato su Emozionalmente è stato valutato su nuovi campioni, ottenendo punteggi F1 di 0.27 e 0.18 negli esperimenti speaker-independent e speaker-dependent per la classificazione delle emozioni. I risultati di questo studio suggeriscono che è possibile sviluppare un algoritmo di riconoscimento delle emozioni vocali speaker-dependent per il monitoraggio a lungo termine della qualità della vita dei pazienti, preservando la privacy, ma è necessaria una fase iniziale in cui l'algoritmo sia addestrato su dati di un singolo soggetto.