We present MIDI-Mistral, a transformer-based framework for multi- track symbolic music infilling, enabling generation at both bar and track levels with fine-grained control over musical attributes. By integrating attribute control tokens, we allow users to guide the generation process through parameters such as note density, polyphony, and rhythmic structure, enhancing both stylistic coher- ence and creative flexibility. To optimize efficiency and performance, we employ Byte Pair Encoding (BPE) tokenization, which compresses musical sequences while preserving essential structural information. Unlike previous models constrained by fixed-length input sequences, our framework imposes no structural limitations on the number of bars or tracks, enabling flexible and scalable generation over entire compositions. To objectively evaluate our approach, we present MIDIMetrics - a Python library designed to evaluate symbolic music generation models. Using MIDIMetrics, we benchmark our system against MMM and MusIAC, two state- of-the-art methods. Experimental results demonstrate that our model achieves competitive performance with respect to existing models, and specifically outper- forms them in understanding musical rhythm and infilling on drum tracks.

Presentiamo MIDI-Mistral, un framework basato su transformer per il completamento di musica simbolica multi-traccia, consentendo la generazione sia a livello di battuta che di traccia con un controllo dettagliato su diverse caratteristiche musicali. Integrando specifici token di controllo, permettiamo agli utenti di guidare il processo di generazione attraverso parametri come densità delle note, polifonia e struttura ritmica, migliorando sia la coerenza stilistica che la flessibilità creativa. Per ottimizzare efficienza e prestazioni, utilizziamo la tokenizzazione Byte Pair Encoding (BPE), che comprime le sequenze musicali preservando al contempo le informazioni strutturali essenziali. A differenza dei modelli precedenti, vincolati a sequenze di input di lunghezza fissa, il nostro framework non impone limitazioni strutturali sul numero di battute o tracce, consentendo una generazione flessibile e scalabile su intere composizioni. Per valutare oggettivamente il nostro approccio, introduciamo MIDIMetrics, una libreria Python per l'analisi dei modelli di generazione musicale simbolica, che utilizziamo per confrontare il nostro sistema con due metodi all'avanguardia. I risultati sperimentali dimostrano che il nostro modello ottiene prestazioni competitive rispetto ai modelli esistenti, superandoli in particolare nella comprensione del ritmo musicale e nel completamento delle tracce di batteria.

MIDI-Mistral: controllable transformer-based MIDI generation for bar and track infilling

RIZZOTTI, DAVIDE
2024/2025

Abstract

We present MIDI-Mistral, a transformer-based framework for multi- track symbolic music infilling, enabling generation at both bar and track levels with fine-grained control over musical attributes. By integrating attribute control tokens, we allow users to guide the generation process through parameters such as note density, polyphony, and rhythmic structure, enhancing both stylistic coher- ence and creative flexibility. To optimize efficiency and performance, we employ Byte Pair Encoding (BPE) tokenization, which compresses musical sequences while preserving essential structural information. Unlike previous models constrained by fixed-length input sequences, our framework imposes no structural limitations on the number of bars or tracks, enabling flexible and scalable generation over entire compositions. To objectively evaluate our approach, we present MIDIMetrics - a Python library designed to evaluate symbolic music generation models. Using MIDIMetrics, we benchmark our system against MMM and MusIAC, two state- of-the-art methods. Experimental results demonstrate that our model achieves competitive performance with respect to existing models, and specifically outper- forms them in understanding musical rhythm and infilling on drum tracks.
GIAMPICCOLO, RICCARDO
PASQUIER, PHILIPPE
ING - Scuola di Ingegneria Industriale e dell'Informazione
3-apr-2025
2024/2025
Presentiamo MIDI-Mistral, un framework basato su transformer per il completamento di musica simbolica multi-traccia, consentendo la generazione sia a livello di battuta che di traccia con un controllo dettagliato su diverse caratteristiche musicali. Integrando specifici token di controllo, permettiamo agli utenti di guidare il processo di generazione attraverso parametri come densità delle note, polifonia e struttura ritmica, migliorando sia la coerenza stilistica che la flessibilità creativa. Per ottimizzare efficienza e prestazioni, utilizziamo la tokenizzazione Byte Pair Encoding (BPE), che comprime le sequenze musicali preservando al contempo le informazioni strutturali essenziali. A differenza dei modelli precedenti, vincolati a sequenze di input di lunghezza fissa, il nostro framework non impone limitazioni strutturali sul numero di battute o tracce, consentendo una generazione flessibile e scalabile su intere composizioni. Per valutare oggettivamente il nostro approccio, introduciamo MIDIMetrics, una libreria Python per l'analisi dei modelli di generazione musicale simbolica, che utilizziamo per confrontare il nostro sistema con due metodi all'avanguardia. I risultati sperimentali dimostrano che il nostro modello ottiene prestazioni competitive rispetto ai modelli esistenti, superandoli in particolare nella comprensione del ritmo musicale e nel completamento delle tracce di batteria.
File allegati
File Dimensione Formato  
Executive Summary Davide Rizzotti.pdf

solo utenti autorizzati a partire dal 11/03/2026

Dimensione 542.13 kB
Formato Adobe PDF
542.13 kB Adobe PDF   Visualizza/Apri
Tesi.pdf

accessibile in internet per tutti a partire dal 11/03/2026

Dimensione 1.88 MB
Formato Adobe PDF
1.88 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/235511