Emotion recognition systems are becoming increasingly important in various fields, including Human-Machine Interaction (HMI), music therapy, and performance enhancement. In the context of music, recognizing emotions conveyed during live piano performances provides valuable insights into both the performer’s and the listener’s emotional experience. This thesis addresses a gap in current emotion recognition models by developing a system that combines external musical expression with internal physiological signals, aiming to capture a performer’s emotional state during live piano performances. By integrating physiological signals, we gain a better understanding of the performer’s real-time emotions, offering a clearer picture of the feelings behind a musical performance. A key contribution of this work is the development of a multimodal emotion recognition framework, which combines audio data from live piano performances with physiological signals, in particular, electromyography (EMG) to deliver a comprehensive analysis of the emotional context of a musical performance. Our system employs a combination of deep learning techniques and multimodal data fusion to classify emotional states with higher accuracy. To support and evaluate the performance of our system, we introduce a novel protocol for constructing a multimodal dataset specifically designed for live piano performances, addressing the limitations of existing datasets. This dataset includes synchronized audio, physiological data from the performer, video recordings focused on the performer’s face, and 3D motion data. Through a series of experiments, we demonstrate that integrating physiological signals enhances the accuracy of emotion classification compared to audio-only systems. This approach shows great potential for applications such as performance enhancement and musical visualizations based on the emotional context in real time. This work makes a meaningful contribution to the field of emotion recognition, particularly in music, offering a new perspective on how emotions can be understood by combining musical expressions with physiological signals paving the way for future research and applications in both music and emotion-based domains.
I sistemi di riconoscimento delle emozioni stanno diventando sempre più importanti in vari settori, inclusi l’Interazione Uomo-Macchina (HMI), la musicoterapia e il miglioramento delle performance. Nel contesto musicale, riconoscere le emozioni trasmesse durante le esibizioni dal vivo al pianoforte offre preziose intuizioni sia sull’esperienza emotiva del musicista che dell’ascoltatore. Questa tesi affronta una lacuna nei modelli attuali di riconoscimento delle emozioni sviluppando un sistema che combina l’espressione musicale esterna con segnali fisiologici interni, al fine di catturare lo stato emotivo del performer durante esibizioni dal vivo al pianoforte. Integrando i segnali fisiologici, otteniamo una comprensione più approfondita delle emozioni in tempo reale del performer, offrendo una visione più chiara dei sentimenti alla base di una performance musicale. Un contributo chiave di questo lavoro è lo sviluppo di un framework multimodale per il riconoscimento delle emozioni, che combina i dati audio delle esibizioni dal vivo al pianoforte con segnali fisiologici, in particolare l’elettromiografia (EMG), per fornire un’analisi completa del contesto emotivo di una performance musicale. Il nostro modello utilizza una combinazione di tecniche di deep learning e fusione di dati multimodali per classificare gli stati emotivi con maggiore precisione. Per supportare e valutare le prestazioni del nostro sistema, introduciamo un nuovo protocollo per la costruzione di un dataset multimodale appositamente progettato per le esibizioni dal vivo al pianoforte, affrontando le limitazioni dei dataset esistenti. Questo dataset include audio sincronizzato, dati fisiologici del performer, registrazioni video focalizzate sul volto del performer e dati di movimento 3D, colmando una lacuna nelle risorse disponibili per questa ricerca. Attraverso una serie di esperimenti, dimostriamo che l’integrazione di segnali fisiologici migliora significativamente la precisione della classificazione delle emozioni rispetto ai sistemi basati solo sull’audio. Questo approccio mostra un grande potenziale per applicazioni come il miglioramento delle performance e le visualizzazioni musicali basate sul contesto emotivo in tempo reale. Questo lavoro rappresenta un contributo significativo al campo del riconoscimento delle emozioni, in particolare nel riconoscimento delle emozioni musicali, offrendo una nuova prospettiva su come le emozioni possano essere comprese combinando espressioni musicali con segnali fisiologici, aprendo la strada a future ricerche e applicazioni sia in ambito musicale che nelle aree legate alle emozioni.
Multimodal emotion recognition system for piano performances
BESEDOVA, OLGA
2023/2024
Abstract
Emotion recognition systems are becoming increasingly important in various fields, including Human-Machine Interaction (HMI), music therapy, and performance enhancement. In the context of music, recognizing emotions conveyed during live piano performances provides valuable insights into both the performer’s and the listener’s emotional experience. This thesis addresses a gap in current emotion recognition models by developing a system that combines external musical expression with internal physiological signals, aiming to capture a performer’s emotional state during live piano performances. By integrating physiological signals, we gain a better understanding of the performer’s real-time emotions, offering a clearer picture of the feelings behind a musical performance. A key contribution of this work is the development of a multimodal emotion recognition framework, which combines audio data from live piano performances with physiological signals, in particular, electromyography (EMG) to deliver a comprehensive analysis of the emotional context of a musical performance. Our system employs a combination of deep learning techniques and multimodal data fusion to classify emotional states with higher accuracy. To support and evaluate the performance of our system, we introduce a novel protocol for constructing a multimodal dataset specifically designed for live piano performances, addressing the limitations of existing datasets. This dataset includes synchronized audio, physiological data from the performer, video recordings focused on the performer’s face, and 3D motion data. Through a series of experiments, we demonstrate that integrating physiological signals enhances the accuracy of emotion classification compared to audio-only systems. This approach shows great potential for applications such as performance enhancement and musical visualizations based on the emotional context in real time. This work makes a meaningful contribution to the field of emotion recognition, particularly in music, offering a new perspective on how emotions can be understood by combining musical expressions with physiological signals paving the way for future research and applications in both music and emotion-based domains.File | Dimensione | Formato | |
---|---|---|---|
2024_10_Besedova_Executive Summary_02.pdf
accessibile in internet solo dagli utenti autorizzati
Descrizione: Executive summary
Dimensione
1.5 MB
Formato
Adobe PDF
|
1.5 MB | Adobe PDF | Visualizza/Apri |
2024_10_Besedova_Thesis_01.pdf
accessibile in internet solo dagli utenti autorizzati
Descrizione: Thesis
Dimensione
19.25 MB
Formato
Adobe PDF
|
19.25 MB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/227956