Timbre Transfer techniques may find application in several different scenarios, particularly in music production environments. Having a tool that takes as input a signal of a recorded instrument and that gives as output the same recording but with a new timbre could be helpful to music producers. In this thesis, after giving an overview of the existing techniques and methodologies that follow this goal, we propose a method which can effectively create a timbre space which permits to operate one to many timbre transfer. We do this by training a conditional convolutional beta-VAE architecture on a subset of the NSYNTH dataset build by us. The system takes as input a spectrogram of a note with a given timbre, namely its time- frequency representation, and outputs multiple spectrograms of the same note with differ- ent timbres. It does that by constructing a navigable conditioned latent space represen- tation of timbres and automatically encoding the pitch information. Given the possibility to move inside the latent space, we perform timbre interpolation, namely the morphing between two timbres, generating new samples that go from a starting timbre to an ending one, exploring the timbral space between them. We evaluate our system from different perspectives. In particular, we establish a twofold evaluation system based on classifica- tion and perceptual ratings. The experimental results show that the model is capable of performing the timbre transfer task having the generated samples that match the ground truth ones and that the conditioned latent space creates automatically clusters based on timbre and pitch, giving the possibility to perform timbre interpolation by moving inside it.

Le tecniche di trasferimento di timbro possono trovare applicazione in diversi scenari, particolarmente negli ambienti di produzione musicale. Avere un sistema che prende in input un segnale di uno strumento registrato e che dà in output lo stesso segnale ma con un nuovo timbro può rivelarsi vantaggioso per i produttori musicali. In questa tesi, dopo aver dato una panoramica sulle tecniche e metodologie esistenti che perseguono questo scopo, proponiamo un metodo che può efficacemente creare uno spazio timbrico che permette di realizzare trasferimento di timbro uno a molti. Lo facciamo allenando un’architettura beta-VAE convoluzionale e condizionata su un sottoinsieme del dataset NSYNTH costruito da noi. Il sistema prende in input uno spettrogramma di una nota con un certo timbro, ovvero la sua rappresentazione tempo-frequenza, e restituisce multipli spettrogrammi della stessa nota con timbri diversi. Lo fa costruendo uno spazio latente condizionato navigabile di timbri e codificando automaticamente l’informazione legata all’intonazione. Data la possibilità di muoversi all’interno dello spazio latente, re- alizziamo interpolazione timbrica, ovvero il passaggio tra due timbri, generando nuovi campioni che vanno da un timbro iniziale ad un timbro finale, esplorando lo spazio tra loro. Valutiamo il nostro sistema secondo molteplici prospettive. In particolare, abbiamo stabilito un duplice sistema di valutazione basato sulla classificazione e su test percettivi. I risultati evidenziano che il modello è in grado di svolgere il trasferimento di timbro avendo i campioni generati che coincidono con quelli reali e che lo spazio latente condizionato crea automaticamente dei cluster basati sul timbro e sul pitch, dando la possibilità di realizzare interpolazione di timbro muovendosi all’interno di esso.

Timbre Transfer and Interpolation using a conditional convolutional beta-variational Autoencoder

Pol, Silvio
2021/2022

Abstract

Timbre Transfer techniques may find application in several different scenarios, particularly in music production environments. Having a tool that takes as input a signal of a recorded instrument and that gives as output the same recording but with a new timbre could be helpful to music producers. In this thesis, after giving an overview of the existing techniques and methodologies that follow this goal, we propose a method which can effectively create a timbre space which permits to operate one to many timbre transfer. We do this by training a conditional convolutional beta-VAE architecture on a subset of the NSYNTH dataset build by us. The system takes as input a spectrogram of a note with a given timbre, namely its time- frequency representation, and outputs multiple spectrograms of the same note with differ- ent timbres. It does that by constructing a navigable conditioned latent space represen- tation of timbres and automatically encoding the pitch information. Given the possibility to move inside the latent space, we perform timbre interpolation, namely the morphing between two timbres, generating new samples that go from a starting timbre to an ending one, exploring the timbral space between them. We evaluate our system from different perspectives. In particular, we establish a twofold evaluation system based on classifica- tion and perceptual ratings. The experimental results show that the model is capable of performing the timbre transfer task having the generated samples that match the ground truth ones and that the conditioned latent space creates automatically clusters based on timbre and pitch, giving the possibility to perform timbre interpolation by moving inside it.
COMANDUCCI, LUCA
ING - Scuola di Ingegneria Industriale e dell'Informazione
21-lug-2022
2021/2022
Le tecniche di trasferimento di timbro possono trovare applicazione in diversi scenari, particolarmente negli ambienti di produzione musicale. Avere un sistema che prende in input un segnale di uno strumento registrato e che dà in output lo stesso segnale ma con un nuovo timbro può rivelarsi vantaggioso per i produttori musicali. In questa tesi, dopo aver dato una panoramica sulle tecniche e metodologie esistenti che perseguono questo scopo, proponiamo un metodo che può efficacemente creare uno spazio timbrico che permette di realizzare trasferimento di timbro uno a molti. Lo facciamo allenando un’architettura beta-VAE convoluzionale e condizionata su un sottoinsieme del dataset NSYNTH costruito da noi. Il sistema prende in input uno spettrogramma di una nota con un certo timbro, ovvero la sua rappresentazione tempo-frequenza, e restituisce multipli spettrogrammi della stessa nota con timbri diversi. Lo fa costruendo uno spazio latente condizionato navigabile di timbri e codificando automaticamente l’informazione legata all’intonazione. Data la possibilità di muoversi all’interno dello spazio latente, re- alizziamo interpolazione timbrica, ovvero il passaggio tra due timbri, generando nuovi campioni che vanno da un timbro iniziale ad un timbro finale, esplorando lo spazio tra loro. Valutiamo il nostro sistema secondo molteplici prospettive. In particolare, abbiamo stabilito un duplice sistema di valutazione basato sulla classificazione e su test percettivi. I risultati evidenziano che il modello è in grado di svolgere il trasferimento di timbro avendo i campioni generati che coincidono con quelli reali e che lo spazio latente condizionato crea automaticamente dei cluster basati sul timbro e sul pitch, dando la possibilità di realizzare interpolazione di timbro muovendosi all’interno di esso.
File allegati
File Dimensione Formato  
TESI_SILVIO_POL.pdf

accessibile in internet per tutti

Descrizione: Tesi
Dimensione 8.19 MB
Formato Adobe PDF
8.19 MB Adobe PDF Visualizza/Apri
EX_SUMMARY_SILVIO_POL.pdf

accessibile in internet per tutti

Descrizione: Executive Summary
Dimensione 2.54 MB
Formato Adobe PDF
2.54 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/189682