MIDI-Mistral: controllable transformer-based MIDI generation for bar and track infilling

Biblioteche e Archivi
POLITesi - Archivio digitale delle tesi di laurea e di dottorato

We present MIDI-Mistral, a transformer-based framework for multi- track symbolic music infilling, enabling generation at both bar and track levels with fine-grained control over musical attributes. By integrating attribute control tokens, we allow users to guide the generation process through parameters such as note density, polyphony, and rhythmic structure, enhancing both stylistic coher- ence and creative flexibility. To optimize efficiency and performance, we employ Byte Pair Encoding (BPE) tokenization, which compresses musical sequences while preserving essential structural information. Unlike previous models constrained by fixed-length input sequences, our framework imposes no structural limitations on the number of bars or tracks, enabling flexible and scalable generation over entire compositions. To objectively evaluate our approach, we present MIDIMetrics - a Python library designed to evaluate symbolic music generation models. Using MIDIMetrics, we benchmark our system against MMM and MusIAC, two state- of-the-art methods. Experimental results demonstrate that our model achieves competitive performance with respect to existing models, and specifically outper- forms them in understanding musical rhythm and infilling on drum tracks.

Presentiamo MIDI-Mistral, un framework basato su transformer per il completamento di musica simbolica multi-traccia, consentendo la generazione sia a livello di battuta che di traccia con un controllo dettagliato su diverse caratteristiche musicali. Integrando specifici token di controllo, permettiamo agli utenti di guidare il processo di generazione attraverso parametri come densità delle note, polifonia e struttura ritmica, migliorando sia la coerenza stilistica che la flessibilità creativa. Per ottimizzare efficienza e prestazioni, utilizziamo la tokenizzazione Byte Pair Encoding (BPE), che comprime le sequenze musicali preservando al contempo le informazioni strutturali essenziali. A differenza dei modelli precedenti, vincolati a sequenze di input di lunghezza fissa, il nostro framework non impone limitazioni strutturali sul numero di battute o tracce, consentendo una generazione flessibile e scalabile su intere composizioni. Per valutare oggettivamente il nostro approccio, introduciamo MIDIMetrics, una libreria Python per l'analisi dei modelli di generazione musicale simbolica, che utilizziamo per confrontare il nostro sistema con due metodi all'avanguardia. I risultati sperimentali dimostrano che il nostro modello ottiene prestazioni competitive rispetto ai modelli esistenti, superandoli in particolare nella comprensione del ritmo musicale e nel completamento delle tracce di batteria.

MIDI-Mistral: controllable transformer-based MIDI generation for bar and track infilling

RIZZOTTI, DAVIDE

2024/2025

Abstract

We present MIDI-Mistral, a transformer-based framework for multi- track symbolic music infilling, enabling generation at both bar and track levels with fine-grained control over musical attributes. By integrating attribute control tokens, we allow users to guide the generation process through parameters such as note density, polyphony, and rhythmic structure, enhancing both stylistic coher- ence and creative flexibility. To optimize efficiency and performance, we employ Byte Pair Encoding (BPE) tokenization, which compresses musical sequences while preserving essential structural information. Unlike previous models constrained by fixed-length input sequences, our framework imposes no structural limitations on the number of bars or tracks, enabling flexible and scalable generation over entire compositions. To objectively evaluate our approach, we present MIDIMetrics - a Python library designed to evaluate symbolic music generation models. Using MIDIMetrics, we benchmark our system against MMM and MusIAC, two state- of-the-art methods. Experimental results demonstrate that our model achieves competitive performance with respect to existing models, and specifically outper- forms them in understanding musical rhythm and infilling on drum tracks.

Scheda breve

Scheda completa

	Relatore
	
				ANTONACCI, FABIO
			
	Correlatore/i
	
				GIAMPICCOLO, RICCARDO
PASQUIER, PHILIPPE
			
	Scuola / Dip.
	
				ING  - Scuola di Ingegneria Industriale e dell'Informazione
			
	Data
	
				3-apr-2025
			
	Anno accademico
	
				2024/2025
			
	Abstract in italiano
	
				Presentiamo MIDI-Mistral, un framework basato su transformer per il completamento di musica simbolica multi-traccia, consentendo la generazione sia a livello di battuta che di traccia con un controllo dettagliato su diverse caratteristiche musicali. Integrando specifici token di controllo, permettiamo agli utenti di guidare il processo di generazione attraverso parametri come densità delle note, polifonia e struttura ritmica, migliorando sia la coerenza stilistica che la flessibilità creativa. Per ottimizzare efficienza e prestazioni, utilizziamo la tokenizzazione Byte Pair Encoding (BPE), che comprime le sequenze musicali preservando al contempo le informazioni strutturali essenziali. A differenza dei modelli precedenti, vincolati a sequenze di input di lunghezza fissa, il nostro framework non impone limitazioni strutturali sul numero di battute o tracce, consentendo una generazione flessibile e scalabile su intere composizioni. Per valutare oggettivamente il nostro approccio, introduciamo MIDIMetrics, una libreria Python per l'analisi dei modelli di generazione musicale simbolica, che utilizziamo per confrontare il nostro sistema con due metodi all'avanguardia. I risultati sperimentali dimostrano che il nostro modello ottiene prestazioni competitive rispetto ai modelli esistenti, superandoli in particolare nella comprensione del ritmo musicale e nel completamento delle tracce di batteria.
			
	Appare nelle tipologie:
	
				Tesi di laurea Magistrale

File allegati

File	Dimensione	Formato
Executive Summary Davide Rizzotti.pdf solo utenti autorizzati a partire dal 11/03/2026 Dimensione 542.13 kB Formato Adobe PDF Visualizza/Apri	542.13 kB	Adobe PDF	Visualizza/Apri
Tesi.pdf accessibile in internet per tutti a partire dal 11/03/2026 Dimensione 1.88 MB Formato Adobe PDF Visualizza/Apri	1.88 MB	Adobe PDF	Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/235511