Although large-scale generative models like GPT-4 and DALL-E have recently achieved undeniable success, they struggle to provide precise control over specific attributes of the generated content because they rely on text prompts. Such a control, however, is often desirable in applications such as music generation and assisted music composition. A common approach is to learn a disentangled representation within the latent space of a deep latent variable model, thus allowing for more precise manipulation of the model outputs. In this work, we focus on supervised models that extend the well-established variational information bottleneck framework by including a regularization loss aimed at encoding a specific attribute into a designated dimension of the latent space. The novelty of the approach lies in the introduction of an invertible parametric mapping whose goal is to transform the original and possibly complex distribution of the target attribute to a new one that is coherent with that of the latent space. In particular, such a transformation is designed so as to encourage synergy between the attribute regularization term and the Kullback-Leibler divergence. Moreover, being invertible, the proposed mapping ensures the interpretability of the manipulation process. We apply the proposed method to the task of symbolic music generation, showing that, for a range of musical attributes, it improves the correlation between the attribute of the generated melodies and the latent dimension where it is encoded while preserving the distribution of the latent variables to a greater extent compared to the state of the art.

Nonostante l'innegabile successo di recenti modelli generativi come GPT-4 e DALL-E, essendo basati su prompt di testo, essi faticano a fornire un controllo preciso su attributi specifici del contenuto generato. Tale controllo tuttavia, è spesso auspicabile in applicazioni come la generazione di musica e la composizione musicale assistita. A questo scopo un approccio spesso seguito consiste nell'utilizzo di modelli a variabili latenti, i quali permettono di imparare nel loro spazio latente una particolare rappresentazione che evidenzia i diversi fattori di variazione nei dati di input, consentendo così una manipolazione più precisa delle proprietà dell'output durante la sua generazione. In questo lavoro estendiamo il framework conosciuto come variational information bottleneck con un approccio di tipo supervised: uno specifico attributo viene codificato in una dimensione dello spazio latente grazie ad un termine di regolarizzazione aggiuntivo nella funzione di loss globale. La novità della nostra proposta risiede nell'introduzione di una funzione parametrica e invertibile il cui obiettivo è quello di trasformare la distribuzione originale e possibilmente complessa dell'attributo in oggetto in una più semplice che sia coerente con quella scelta per lo spazio latente. In particolare, tale trasformazione è progettata in modo da incoraggiare la sinergia tra il termine di regolarizzazione sopra citato e la divergenza di Kullback-Leibler durante la fase di training del modello. Inoltre, essendo invertibile, la trasformazione proposta garantisce maggior interpretabilità nel processo di manipolazione dell'attributo. Considerando diversi attributi, applichiamo il metodo proposto nel dominio della symbolic music generation, dimostrando che, rispetto allo stato dell'arte, conduce ad effettivi miglioramenti nella correlazione tra l'attributo delle melodie generate e la dimensione dello spazio latente in cui è codificato, preservando al contempo la distribuzione delle variabili latenti.

Latent space regularization via normalizing attribute transformations for symbolic music generation

Petteno', Matteo
2023/2024

Abstract

Although large-scale generative models like GPT-4 and DALL-E have recently achieved undeniable success, they struggle to provide precise control over specific attributes of the generated content because they rely on text prompts. Such a control, however, is often desirable in applications such as music generation and assisted music composition. A common approach is to learn a disentangled representation within the latent space of a deep latent variable model, thus allowing for more precise manipulation of the model outputs. In this work, we focus on supervised models that extend the well-established variational information bottleneck framework by including a regularization loss aimed at encoding a specific attribute into a designated dimension of the latent space. The novelty of the approach lies in the introduction of an invertible parametric mapping whose goal is to transform the original and possibly complex distribution of the target attribute to a new one that is coherent with that of the latent space. In particular, such a transformation is designed so as to encourage synergy between the attribute regularization term and the Kullback-Leibler divergence. Moreover, being invertible, the proposed mapping ensures the interpretability of the manipulation process. We apply the proposed method to the task of symbolic music generation, showing that, for a range of musical attributes, it improves the correlation between the attribute of the generated melodies and the latent dimension where it is encoded while preserving the distribution of the latent variables to a greater extent compared to the state of the art.
MEZZA, ALESSANDRO ILIC
ING - Scuola di Ingegneria Industriale e dell'Informazione
9-ott-2024
2023/2024
Nonostante l'innegabile successo di recenti modelli generativi come GPT-4 e DALL-E, essendo basati su prompt di testo, essi faticano a fornire un controllo preciso su attributi specifici del contenuto generato. Tale controllo tuttavia, è spesso auspicabile in applicazioni come la generazione di musica e la composizione musicale assistita. A questo scopo un approccio spesso seguito consiste nell'utilizzo di modelli a variabili latenti, i quali permettono di imparare nel loro spazio latente una particolare rappresentazione che evidenzia i diversi fattori di variazione nei dati di input, consentendo così una manipolazione più precisa delle proprietà dell'output durante la sua generazione. In questo lavoro estendiamo il framework conosciuto come variational information bottleneck con un approccio di tipo supervised: uno specifico attributo viene codificato in una dimensione dello spazio latente grazie ad un termine di regolarizzazione aggiuntivo nella funzione di loss globale. La novità della nostra proposta risiede nell'introduzione di una funzione parametrica e invertibile il cui obiettivo è quello di trasformare la distribuzione originale e possibilmente complessa dell'attributo in oggetto in una più semplice che sia coerente con quella scelta per lo spazio latente. In particolare, tale trasformazione è progettata in modo da incoraggiare la sinergia tra il termine di regolarizzazione sopra citato e la divergenza di Kullback-Leibler durante la fase di training del modello. Inoltre, essendo invertibile, la trasformazione proposta garantisce maggior interpretabilità nel processo di manipolazione dell'attributo. Considerando diversi attributi, applichiamo il metodo proposto nel dominio della symbolic music generation, dimostrando che, rispetto allo stato dell'arte, conduce ad effettivi miglioramenti nella correlazione tra l'attributo delle melodie generate e la dimensione dello spazio latente in cui è codificato, preservando al contempo la distribuzione delle variabili latenti.
File allegati
File Dimensione Formato  
mpetteno_thesis_article_format.pdf

accessibile in internet per tutti a partire dal 11/09/2027

Descrizione: Thesis in article format
Dimensione 13.33 MB
Formato Adobe PDF
13.33 MB Adobe PDF   Visualizza/Apri
mpetteno_thesis_executive_summary.pdf

accessibile in internet per tutti a partire dal 11/09/2027

Descrizione: Executive summary of the thesis
Dimensione 3.65 MB
Formato Adobe PDF
3.65 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/227117