Video games have consistently become a predominant form of entertainment in recent years. As products encompassing diverse technological and artistic elements, including computer graphics, video and audio design, music composition, and more, they have attracted increasing research efforts across various scientific disciplines. Specifically, open-world video games, characterized by non-linear narratives and numerous gameplay scenarios, are currently one of the most popular genres. In such games, creating music that accommodates a vast array of events and variations poses a considerable challenge, as human composers find it exceptionally difficult to create music for every conceivable situation. Moreover, the recent success of a few indie games has proven the interest of both developers and gamers in artistic and emotional experiences, characterized by high musical and visual interactivity. Therefore, leveraging advancements in deep learning techniques, we introduce a new method to generate procedural music tailored for video games, with a particular focus on the open-world genre. Our approach involves extracting emotions, as modeled on the valence-arousal plane, from gameplay videos, assuming that these emotional values correspond to those experienced by the player. Subsequently, we employ this emotion-related data to condition a music transformer architecture, generating MIDI tracks that align with the emotional dynamics of the game. To demonstrate the effectiveness of our proposed technique, we conducted a perceptual experiment involving human players. This study not only evaluates the method's efficacy but also explores its applicability within the realm of video game music generation, providing useful insights for future researches in this field.

I videogiochi ad oggi costituiscono una delle forme di intrattenimento di maggior successo. Dietro alla loro realizzazione vi è spesso il lavoro minuzioso di un gran numero di artisti e programmatori, che si occupano di game design, narrazione, composizione musicale, computer grafica, e molto altro. Di conseguenza, la crescente popolarità del medium unita alla sua multidisciplinarietà sta suscitando sempre maggior interesse nella ricerca in vari ambiti scientifici. In particolare, tra i generi di maggior successo vi sono i giochi open-world, in cui ciascun giocatore è libero di esplorare vasti mondi, incontrando un gran numero di sfide e di eventi casuali. In tali giochi, la creazione di musiche che si adattino a questo enorme numero di possibili variazioni rappresenta una sfida considerevole, poiché un singolo compositore difficilmente è in grado di comporre una colonna sonora per ogni combinazione di situazioni. A tal proposito, negli ultimi anni alcuni sviluppatori indipendenti hanno iniziato a proporre brevi esperienze artistiche e coinvolgenti, caratterizzate da suoni e immagini che puntano a reagire costantemente alle diverse azioni del giocatore. Di conseguenza, sfruttando gli ultimi progressi nel deep learning, presentiamo un nuovo metodo per la generazione di musica procedurale per videogiochi, pensato in particolare per le esperienze open-world. Innanzitutto, il nostro approccio è composto da un primo modello che determina costantemente le emozioni suscitate dal video di gioco, modellandole secondo Valence e Arousal e assumendo che questi valori effettivamente rappresentino le emozioni del giocatore. Successivamente, i due valori ottenuti vengono utlizzati per condizionare un music transformer, un'architettura che genera tracce musicali MIDI, che comporrà quindi una colonna sonora coerente con l'impatto emotivo delle immagini di gioco. Per dimostrare l'efficacia della tecnica proposta, abbiamo condotto un test percettivo coinvolgendo dal vivo i diversi partecipanti. Questo lavoro non solo valuta l'efficacia del nostro metodo, ma esplora anche la sua effettiva applicabilità nell'ambito della generazione di musica per videogiochi, fornendo utili spunti per ricerche future in questo campo.

Procedural music generation for video games conditioned through video emotion recognition

Zumerle, Francesco
2022/2023

Abstract

Video games have consistently become a predominant form of entertainment in recent years. As products encompassing diverse technological and artistic elements, including computer graphics, video and audio design, music composition, and more, they have attracted increasing research efforts across various scientific disciplines. Specifically, open-world video games, characterized by non-linear narratives and numerous gameplay scenarios, are currently one of the most popular genres. In such games, creating music that accommodates a vast array of events and variations poses a considerable challenge, as human composers find it exceptionally difficult to create music for every conceivable situation. Moreover, the recent success of a few indie games has proven the interest of both developers and gamers in artistic and emotional experiences, characterized by high musical and visual interactivity. Therefore, leveraging advancements in deep learning techniques, we introduce a new method to generate procedural music tailored for video games, with a particular focus on the open-world genre. Our approach involves extracting emotions, as modeled on the valence-arousal plane, from gameplay videos, assuming that these emotional values correspond to those experienced by the player. Subsequently, we employ this emotion-related data to condition a music transformer architecture, generating MIDI tracks that align with the emotional dynamics of the game. To demonstrate the effectiveness of our proposed technique, we conducted a perceptual experiment involving human players. This study not only evaluates the method's efficacy but also explores its applicability within the realm of video game music generation, providing useful insights for future researches in this field.
COMANDUCCI, LUCA
ING - Scuola di Ingegneria Industriale e dell'Informazione
4-ott-2023
2022/2023
I videogiochi ad oggi costituiscono una delle forme di intrattenimento di maggior successo. Dietro alla loro realizzazione vi è spesso il lavoro minuzioso di un gran numero di artisti e programmatori, che si occupano di game design, narrazione, composizione musicale, computer grafica, e molto altro. Di conseguenza, la crescente popolarità del medium unita alla sua multidisciplinarietà sta suscitando sempre maggior interesse nella ricerca in vari ambiti scientifici. In particolare, tra i generi di maggior successo vi sono i giochi open-world, in cui ciascun giocatore è libero di esplorare vasti mondi, incontrando un gran numero di sfide e di eventi casuali. In tali giochi, la creazione di musiche che si adattino a questo enorme numero di possibili variazioni rappresenta una sfida considerevole, poiché un singolo compositore difficilmente è in grado di comporre una colonna sonora per ogni combinazione di situazioni. A tal proposito, negli ultimi anni alcuni sviluppatori indipendenti hanno iniziato a proporre brevi esperienze artistiche e coinvolgenti, caratterizzate da suoni e immagini che puntano a reagire costantemente alle diverse azioni del giocatore. Di conseguenza, sfruttando gli ultimi progressi nel deep learning, presentiamo un nuovo metodo per la generazione di musica procedurale per videogiochi, pensato in particolare per le esperienze open-world. Innanzitutto, il nostro approccio è composto da un primo modello che determina costantemente le emozioni suscitate dal video di gioco, modellandole secondo Valence e Arousal e assumendo che questi valori effettivamente rappresentino le emozioni del giocatore. Successivamente, i due valori ottenuti vengono utlizzati per condizionare un music transformer, un'architettura che genera tracce musicali MIDI, che comporrà quindi una colonna sonora coerente con l'impatto emotivo delle immagini di gioco. Per dimostrare l'efficacia della tecnica proposta, abbiamo condotto un test percettivo coinvolgendo dal vivo i diversi partecipanti. Questo lavoro non solo valuta l'efficacia del nostro metodo, ma esplora anche la sua effettiva applicabilità nell'ambito della generazione di musica per videogiochi, fornendo utili spunti per ricerche future in questo campo.
File allegati
File Dimensione Formato  
Executive_Summary___Tesi_Zumerle.pdf

accessibile in internet per tutti

Descrizione: Executive Summary
Dimensione 568.74 kB
Formato Adobe PDF
568.74 kB Adobe PDF Visualizza/Apri
Tesi_Zumerle.pdf

accessibile in internet per tutti

Descrizione: Tesi
Dimensione 7.33 MB
Formato Adobe PDF
7.33 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/210809