Music complexity is a topic of interest for musicology and engineering alike, yet it is elusive and difficult to define. Not only is it a distinctively perceptual attribute of music, but complexity is multi-faceted as it ties in with one's culture, background, and experience. While several methods for measuring complexity have been proposed in the literature, none seems comprehensive enough to bear all its aspects. Over the last few years, however, data-driven methods offered an unprecedented opportunity for implicitly modeling such a complex feature. Recent advances in deep learning are indeed able to discover a tractable representation from music data, bringing us closer to interacting with music complexity. In this manuscript, we focus on rhythm complexity. We extend a state-of-the-art variational architecture designed to model long musical sequences to allow for explicit control over a rhythm complexity measure. To this end, we propose a new regularization method and adopt an adversarial loss term promoting the disentanglement of the latent space. Trained on polyphonic drum patterns, the proposed model proved capable of generating coherent and realistic samples at the desired complexity value. In our experiments, output and target complexity showed high correlation, and the latent space appeared interpretable and continuously navigable. On the one hand, such a model can thus contribute to a wide range of creative applications, including, for instance, assisted music composition and automatic music generation. On the other hand, it constitutes a further step towards providing machines with a human-like understanding of perceptual aspects of music.
La complessità della musica è un argomento di interesse sia per la musicologia che per l'ingegneria, eppure sfugge a una definizione precisa. Non solo è un attributo spiccatamente percettivo, ma la complessità si lega anche alla cultura, all'esperienza e all'educazione dell'ascoltatore. Sebbene in letteratura siano stati proposti diversi metodi per misurare la complessità musicale in modo oggettivo, nessuno è in grado di descriverne tutti gli aspetti. Negli ultimi anni, tuttavia, metodi data-driven hanno offerto un'opportunità senza precedenti per modellare implicitamente attributi musicali complessi. Recenti sviluppi nell'ambito del deep learning hanno infatti dimostrato come sia possibile apprendere una rappresentazione trattabile direttamente dai dati musicali. In questa tesi ci siamo concentrati sulla complessità ritmica. Il modello proposto si basa quindi su un'architettura variazionale all'avanguardia progettata per modellare lunghe sequenze musicali, aumentata al fine di consentire il controllo esplicito di una misura di complessità del ritmo. A tal fine, proponiamo un nuovo metodo di regolarizzazione e adottiamo una funzione di costo avversaria che favorisce il disentanglement nello spazio latente. Addestrato su campioni polifonici di batteria, il modello proposto si è dimostrato in grado di generare dati realistici e caratterizzati dal valore di complessità desiderato. Nei nostri esperimenti, la complessità degli esempi generati e quella di riferimento hanno mostrato un'elevata correlazione e lo spazio latente risulta essere interpretabile e continuamente navigabile. Da un lato, un tale modello può quindi trovare spazio in un'ampia gamma di applicazioni creative, tra cui, ad esempio, la composizione musicale assistita e la generazione automatica di musica. D'altro canto, costituisce un ulteriore passo avanti verso lo sviluppo di macchine capaci di comprendere gli aspetti percettivi della musica.
Modeling rhythm complexity using regularized variational autoencoders for automatic generation of polyphonic drum patterns
JAMEAU, CLÉMENT JEAN-BERNARD MICHEL
2021/2022
Abstract
Music complexity is a topic of interest for musicology and engineering alike, yet it is elusive and difficult to define. Not only is it a distinctively perceptual attribute of music, but complexity is multi-faceted as it ties in with one's culture, background, and experience. While several methods for measuring complexity have been proposed in the literature, none seems comprehensive enough to bear all its aspects. Over the last few years, however, data-driven methods offered an unprecedented opportunity for implicitly modeling such a complex feature. Recent advances in deep learning are indeed able to discover a tractable representation from music data, bringing us closer to interacting with music complexity. In this manuscript, we focus on rhythm complexity. We extend a state-of-the-art variational architecture designed to model long musical sequences to allow for explicit control over a rhythm complexity measure. To this end, we propose a new regularization method and adopt an adversarial loss term promoting the disentanglement of the latent space. Trained on polyphonic drum patterns, the proposed model proved capable of generating coherent and realistic samples at the desired complexity value. In our experiments, output and target complexity showed high correlation, and the latent space appeared interpretable and continuously navigable. On the one hand, such a model can thus contribute to a wide range of creative applications, including, for instance, assisted music composition and automatic music generation. On the other hand, it constitutes a further step towards providing machines with a human-like understanding of perceptual aspects of music.File | Dimensione | Formato | |
---|---|---|---|
Master_Thesis_Jameau_Clement.pdf
non accessibile
Dimensione
5.01 MB
Formato
Adobe PDF
|
5.01 MB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/183575