In recent years, advancements in technology have highlighted the need for more effective Human-Machine Interaction (HMI). A key aspect of this is Emotion Recognition (ER), a subfield of AI that uses deep learning to help machines understand human emotions by analyzing various data sources, such as facial expressions and voice tone. Our study specifically focuses on Music Emotion Recognition (MER). This project is part of a larger research effort aimed at creating a multimodal approach to analyze musicians’ emotions during performances. This phase of the project focused on integrating our existing LSTM-based model, which analyzes bodily data from electromyography (EMG), with a separate MER model that processes the audio data. This combined approach addresses the limitations of traditional MER systems that rely solely on auditory features, which fail to capture the full emotional complexity of live performance. By merging bodily cues with audio data, our integrated system demonstrated a significant improvement in emotion prediction accuracy. This multimodal framework was used to study emotions across a large dataset of musical pieces that closely simulated a real concert performance. The ultimate goal of this study was to investigate real-world concert scenarios. While acknowledging the inherent subjectivity of emotion, our study provides a solid framework for analyzing emotions in musical performances. It not only confirms the value of multimodal data but also establishes a significant starting point for future research in this complex field.

Negli ultimi anni, i progressi tecnologici hanno evidenziato la necessità di un'interazione uomo-macchina (HMI) più efficace. Un aspetto cruciale in questo ambito è il Riconoscimento delle Emozioni (ER), un sottocampo dell'intelligenza artificiale che, utilizzando il deep learning, consente alle macchine di comprendere le emozioni umane attraverso l'analisi di diverse fonti di dati, quali le espressioni facciali e il tono della voce. Il presente studio si concentra in modo specifico sul Riconoscimento delle Emozioni nella Musica (MER). Il progetto si inserisce in una più ampia iniziativa di ricerca volta a creare un approccio multimodale per analizzare le emozioni dei musicisti durante le esibizioni. Questa fase specifica del progetto si è focalizzata sull'integrazione del nostro modello esistente basato su LSTM, che analizza i dati corporei derivanti dall'elettromiografia (EMG), con un modello MER separato che elabora i dati audio. Questo approccio combinato supera le limitazioni dei sistemi MER tradizionali, che si basano esclusivamente su caratteristiche uditive e non riescono a cogliere la piena complessità emotiva di una performance dal vivo. Attraverso la fusione di segnali corporei e dati audio, il nostro sistema integrato ha dimostrato un significativo miglioramento nell'accuratezza della previsione delle emozioni. Tale framework multimodale è stato impiegato per studiare le emozioni su un vasto dataset di brani musicali che simulava da vicino una reale esibizione concertistica. L'obiettivo finale di questo studio era proprio quello di indagare scenari di concerto autentici. Pur riconoscendo l'intrinseca soggettività dell'emozione, il nostro studio offre un solido quadro di riferimento per l'analisi delle emozioni nelle performance musicali. Non solo conferma il valore dei dati multimodali, ma stabilisce anche un importante punto di partenza per future ricerche in questo complesso campo.

Beyond traditonal music emotion recognition systems: a multimodal approach to recognizing emotions in piano performances

Sironi, Alice
2024/2025

Abstract

In recent years, advancements in technology have highlighted the need for more effective Human-Machine Interaction (HMI). A key aspect of this is Emotion Recognition (ER), a subfield of AI that uses deep learning to help machines understand human emotions by analyzing various data sources, such as facial expressions and voice tone. Our study specifically focuses on Music Emotion Recognition (MER). This project is part of a larger research effort aimed at creating a multimodal approach to analyze musicians’ emotions during performances. This phase of the project focused on integrating our existing LSTM-based model, which analyzes bodily data from electromyography (EMG), with a separate MER model that processes the audio data. This combined approach addresses the limitations of traditional MER systems that rely solely on auditory features, which fail to capture the full emotional complexity of live performance. By merging bodily cues with audio data, our integrated system demonstrated a significant improvement in emotion prediction accuracy. This multimodal framework was used to study emotions across a large dataset of musical pieces that closely simulated a real concert performance. The ultimate goal of this study was to investigate real-world concert scenarios. While acknowledging the inherent subjectivity of emotion, our study provides a solid framework for analyzing emotions in musical performances. It not only confirms the value of multimodal data but also establishes a significant starting point for future research in this complex field.
BELLUCO, PAOLO
ING - Scuola di Ingegneria Industriale e dell'Informazione
21-ott-2025
2024/2025
Negli ultimi anni, i progressi tecnologici hanno evidenziato la necessità di un'interazione uomo-macchina (HMI) più efficace. Un aspetto cruciale in questo ambito è il Riconoscimento delle Emozioni (ER), un sottocampo dell'intelligenza artificiale che, utilizzando il deep learning, consente alle macchine di comprendere le emozioni umane attraverso l'analisi di diverse fonti di dati, quali le espressioni facciali e il tono della voce. Il presente studio si concentra in modo specifico sul Riconoscimento delle Emozioni nella Musica (MER). Il progetto si inserisce in una più ampia iniziativa di ricerca volta a creare un approccio multimodale per analizzare le emozioni dei musicisti durante le esibizioni. Questa fase specifica del progetto si è focalizzata sull'integrazione del nostro modello esistente basato su LSTM, che analizza i dati corporei derivanti dall'elettromiografia (EMG), con un modello MER separato che elabora i dati audio. Questo approccio combinato supera le limitazioni dei sistemi MER tradizionali, che si basano esclusivamente su caratteristiche uditive e non riescono a cogliere la piena complessità emotiva di una performance dal vivo. Attraverso la fusione di segnali corporei e dati audio, il nostro sistema integrato ha dimostrato un significativo miglioramento nell'accuratezza della previsione delle emozioni. Tale framework multimodale è stato impiegato per studiare le emozioni su un vasto dataset di brani musicali che simulava da vicino una reale esibizione concertistica. L'obiettivo finale di questo studio era proprio quello di indagare scenari di concerto autentici. Pur riconoscendo l'intrinseca soggettività dell'emozione, il nostro studio offre un solido quadro di riferimento per l'analisi delle emozioni nelle performance musicali. Non solo conferma il valore dei dati multimodali, ma stabilisce anche un importante punto di partenza per future ricerche in questo complesso campo.
File allegati
File Dimensione Formato  
2025_10_Sironi_Thesis_01.pdf

accessibile in internet solo dagli utenti autorizzati

Dimensione 4.16 MB
Formato Adobe PDF
4.16 MB Adobe PDF   Visualizza/Apri
2025_10_Sironi_ExecutiveSummary_02.pdf

accessibile in internet solo dagli utenti autorizzati

Dimensione 829.25 kB
Formato Adobe PDF
829.25 kB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/244040