We present MIDI-Mistral, a transformer-based framework for multi- track symbolic music infilling, enabling generation at both bar and track levels with fine-grained control over musical attributes. By integrating attribute control tokens, we allow users to guide the generation process through parameters such as note density, polyphony, and rhythmic structure, enhancing both stylistic coher- ence and creative flexibility. To optimize efficiency and performance, we employ Byte Pair Encoding (BPE) tokenization, which compresses musical sequences while preserving essential structural information. Unlike previous models constrained by fixed-length input sequences, our framework imposes no structural limitations on the number of bars or tracks, enabling flexible and scalable generation over entire compositions. To objectively evaluate our approach, we present MIDIMetrics - a Python library designed to evaluate symbolic music generation models. Using MIDIMetrics, we benchmark our system against MMM and MusIAC, two state- of-the-art methods. Experimental results demonstrate that our model achieves competitive performance with respect to existing models, and specifically outper- forms them in understanding musical rhythm and infilling on drum tracks.
Presentiamo MIDI-Mistral, un framework basato su transformer per il completamento di musica simbolica multi-traccia, consentendo la generazione sia a livello di battuta che di traccia con un controllo dettagliato su diverse caratteristiche musicali. Integrando specifici token di controllo, permettiamo agli utenti di guidare il processo di generazione attraverso parametri come densità delle note, polifonia e struttura ritmica, migliorando sia la coerenza stilistica che la flessibilità creativa. Per ottimizzare efficienza e prestazioni, utilizziamo la tokenizzazione Byte Pair Encoding (BPE), che comprime le sequenze musicali preservando al contempo le informazioni strutturali essenziali. A differenza dei modelli precedenti, vincolati a sequenze di input di lunghezza fissa, il nostro framework non impone limitazioni strutturali sul numero di battute o tracce, consentendo una generazione flessibile e scalabile su intere composizioni. Per valutare oggettivamente il nostro approccio, introduciamo MIDIMetrics, una libreria Python per l'analisi dei modelli di generazione musicale simbolica, che utilizziamo per confrontare il nostro sistema con due metodi all'avanguardia. I risultati sperimentali dimostrano che il nostro modello ottiene prestazioni competitive rispetto ai modelli esistenti, superandoli in particolare nella comprensione del ritmo musicale e nel completamento delle tracce di batteria.
MIDI-Mistral: controllable transformer-based MIDI generation for bar and track infilling
RIZZOTTI, DAVIDE
2024/2025
Abstract
We present MIDI-Mistral, a transformer-based framework for multi- track symbolic music infilling, enabling generation at both bar and track levels with fine-grained control over musical attributes. By integrating attribute control tokens, we allow users to guide the generation process through parameters such as note density, polyphony, and rhythmic structure, enhancing both stylistic coher- ence and creative flexibility. To optimize efficiency and performance, we employ Byte Pair Encoding (BPE) tokenization, which compresses musical sequences while preserving essential structural information. Unlike previous models constrained by fixed-length input sequences, our framework imposes no structural limitations on the number of bars or tracks, enabling flexible and scalable generation over entire compositions. To objectively evaluate our approach, we present MIDIMetrics - a Python library designed to evaluate symbolic music generation models. Using MIDIMetrics, we benchmark our system against MMM and MusIAC, two state- of-the-art methods. Experimental results demonstrate that our model achieves competitive performance with respect to existing models, and specifically outper- forms them in understanding musical rhythm and infilling on drum tracks.File | Dimensione | Formato | |
---|---|---|---|
Executive Summary Davide Rizzotti.pdf
solo utenti autorizzati a partire dal 11/03/2026
Dimensione
542.13 kB
Formato
Adobe PDF
|
542.13 kB | Adobe PDF | Visualizza/Apri |
Tesi.pdf
accessibile in internet per tutti a partire dal 11/03/2026
Dimensione
1.88 MB
Formato
Adobe PDF
|
1.88 MB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/235511