This thesis faces the challenges of Speech Emotion Recognition (SER) in Italian through the development of VoiceMood, a web-based application designed to collect spontaneous and emotionally rich conversational speech. Existing emotional corpora often rely on acted, short, and scripted recordings, which limits their applicability to real-world scenarios. Instead, VoiceMood takes advantage of a gamified chat system where couples of users exchange short voice messages on predefined topics, explicitly select an intended emotion, and later try to guess their partner’s expressed emotion. An integrated AI model does the same task, creating a triangulated annotation scheme that captures expression, perception, and AI-based recognition. The project followed four main objectives: the design and implementation of VoiceMood as a functional platform for conversational data collection; the construction of a novel Italian emotional speech dataset; the fine-tuning of an existing AI model using the collected data; and the evaluation of results by comparing them with existing corpora. Testing involved a usability study and a ten-day crowdsourcing campaign. Results indicate that the application is intuitive and capable of producing spontaneous recordings of longer duration compared to existing corpora, with 81% of recordings exceeding 10 seconds. Preliminary comparisons highlight both the potential and limitations of current models such as Emozionalmente, particularly with regard to recognition accuracy across emotions in a realistic context and with a lower audio quality. The initial goal of creating a sufficiently large dataset for AI training could not be fully achieved due to the limited amount of data collected. With future improvements, a new data collection campaign could make this objective attainable.
Questa tesi affronta le sfide del riconoscimento delle emozioni nel parlato (SER) in lingua italiana attraverso lo sviluppo di VoiceMood, un’applicazione web progettata per raccogliere dati vocali spontanei e ricchi di contenuto emotivo in contesti conversazionali. I dataset esistenti si basano spesso su registrazioni recitate, brevi e scriptate, limitandone l’applicabilità a scenari reali. VoiceMood adotta invece un sistema di chat gamificata in cui coppie di utenti si scambiano brevi messaggi vocali su argomenti predefiniti, selezionano esplicitamente un’emozione e successivamente cercano di indovinare l’emozione espressa dal partner. Un modello di intelligenza artificiale svolge lo stesso compito, creando uno schema di annotazione triangolato che integra espressione, percezione e riconoscimento automatico dell’IA. Il progetto ha perseguito quattro obiettivi principali: la progettazione e realizzazione di VoiceMood come piattaforma funzionale per la raccolta di dati conversazionali; la costruzione di un nuovo dataset di parlato emotivo in italiano; l’affinamento di un modello di intelligenza artificiale esistente tramite i dati raccolti; e la valutazione dei risultati confrontandoli con dataset già disponibili. Le fasi di test hanno incluso uno studio di usabilità e una campagna di crowdsourcing della durata di dieci giorni. I risultati confermano che l’applicazione è intuitiva e in grado di produrre registrazioni spontanee di durata maggiore rispetto ai corpora esistenti, con l’81% dei campioni superiore ai 10 secondi. I confronti preliminari mettono in luce al tempo stesso le potenzialità e i limiti dei modelli attuali, come Emozionalmente, in particolare in termini di accuratezza del riconoscimento delle emozioni in un contesto realistico e con qualità degli audio inferiore. L’obiettivo iniziale di creare un dataset sufficientemente ampio per l’addestramento di un’IA non è stato pienamente raggiunto a causa della quantità limitata di dati raccolti. Con alcuni miglioramenti futuri, però, una nuova campagna di raccolta potrebbe rendere questo obiettivo realizzabile.
VoiceMood: assessing emozionalmente for spontaneous emotion recognition in conversational speech
Carpinteri, Paolo;BONDIONI, GABRIEL
2024/2025
Abstract
This thesis faces the challenges of Speech Emotion Recognition (SER) in Italian through the development of VoiceMood, a web-based application designed to collect spontaneous and emotionally rich conversational speech. Existing emotional corpora often rely on acted, short, and scripted recordings, which limits their applicability to real-world scenarios. Instead, VoiceMood takes advantage of a gamified chat system where couples of users exchange short voice messages on predefined topics, explicitly select an intended emotion, and later try to guess their partner’s expressed emotion. An integrated AI model does the same task, creating a triangulated annotation scheme that captures expression, perception, and AI-based recognition. The project followed four main objectives: the design and implementation of VoiceMood as a functional platform for conversational data collection; the construction of a novel Italian emotional speech dataset; the fine-tuning of an existing AI model using the collected data; and the evaluation of results by comparing them with existing corpora. Testing involved a usability study and a ten-day crowdsourcing campaign. Results indicate that the application is intuitive and capable of producing spontaneous recordings of longer duration compared to existing corpora, with 81% of recordings exceeding 10 seconds. Preliminary comparisons highlight both the potential and limitations of current models such as Emozionalmente, particularly with regard to recognition accuracy across emotions in a realistic context and with a lower audio quality. The initial goal of creating a sufficiently large dataset for AI training could not be fully achieved due to the limited amount of data collected. With future improvements, a new data collection campaign could make this objective attainable.| File | Dimensione | Formato | |
|---|---|---|---|
|
2025_10_Bondioni_Carpinteri_Thesis.pdf
accessibile in internet per tutti
Descrizione: Thesis
Dimensione
5.97 MB
Formato
Adobe PDF
|
5.97 MB | Adobe PDF | Visualizza/Apri |
|
2025_10_Bondioni_Carpinteri_Executive_Summary.pdf
accessibile in internet per tutti
Descrizione: Executive Summary
Dimensione
974.46 kB
Formato
Adobe PDF
|
974.46 kB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/243932