Frequency Modulation (FM) based re-synthesis - to find the parameter values which best make a FM-synthesizer produce an output sound as similar as pos- sible to a given target sound - is a challenging problem. The search space of a commercial synthesizer is often non-linear and high dimensional. Moreover, some crucial decisions need to be done such as choosing the number of mod- ulating oscillators or the algorithm by which they modulate each other. In this work we propose to use Machine Learning (ML) to learn a mapping from tar- get sound to the parameter space of an FM-synthesizer. In order to investigate the capabilities of ML to implicitly learn to make the mentioned key desicions in FM, we design and compare two approaches: first a concurrent approach where all parameter values are compared at once by one model, and second a sequential approach where the prediction is done by a mix of classifiers and regressors. We evaluate the performance of the approaches with respect to ability to reproduce instrumental sound samples from a dataset of 2255 sam- ples from over 700 instrument in three different pitches with respect to four different distance metrics, . The results indicate that both approaches have similar performance at predicting parameters which reconstruct the frequency magnitude spectrum and envelope of a target sound. However the results also point at the sequential model being better at predicting the parameters which reconstruct the temporal evolution of the frequency magnitude spectrums. It is concluded that despite the sequential model outperforming the concurrent, it is likely possible for a model to make key decisions implicitly, without ex- plicitly designed subproblems.

La ri-sintesi basata sulla modulazione di frequenza (FM) - per trovare i valori dei parametri che meglio fanno in modo che un sintetizzatore FM produca un suono di uscita il più simile possibile a un determinato suono target - è un problema difficile. Lo spazio di ricerca di un sintetizzatore commerciale è spesso non lineare e di alta dimensione. Inoltre, alcune decisioni cruciali devono essere prese come la scelta del numero di oscillatori modulanti o l'algoritmo con il quale si modulano l'un l'altro. In questo lavoro proponiamo di utilizzare Machine Learning (ML) per apprendere una mappatura dal suono target allo spazio dei parametri di un sintetizzatore FM. Al fine di studiare le capacità di ML di imparare implicitamente a formulare le suddette decisioni chiave in FM, progettiamo e confrontiamo due approcci: in primo luogo un approccio simultaneo in cui tutti i valori dei parametri vengono confrontati contemporaneamente da un modello, e in secondo luogo un approccio sequenziale in cui il la previsione è fatta da un mix di classificatori e regressori. Valutiamo le prestazioni degli approcci rispetto alla capacità di riprodurre campioni sonori strumentali da un set di dati di 2255 campioni da oltre 700 strumenti in tre tonalità diverse rispetto a quattro diverse metriche di distanza. I risultati indicano che entrambi gli approcci hanno prestazioni simili nel predire i parametri che ricostruiscono lo spettro di magnitudo della frequenza e l'inviluppo di un suono target. Tuttavia, i risultati indicano anche che il modello sequenziale è più efficace nel prevedere i parametri che ricostruiscono l'evoluzione temporale degli spettri di magnitudo di frequenza. Si è concluso che, nonostante il modello sequenziale sovraperforma quello concorrente, è probabile che un modello prenda decisioni chiave implicitamente, senza sottoproblemi esplicitamente progettati.

Re-synthesis of instrumental sounds with machine learning and a frequency modulation synthesizer

CLAESSON, JOHAN PHILIP
2018/2019

Abstract

Frequency Modulation (FM) based re-synthesis - to find the parameter values which best make a FM-synthesizer produce an output sound as similar as pos- sible to a given target sound - is a challenging problem. The search space of a commercial synthesizer is often non-linear and high dimensional. Moreover, some crucial decisions need to be done such as choosing the number of mod- ulating oscillators or the algorithm by which they modulate each other. In this work we propose to use Machine Learning (ML) to learn a mapping from tar- get sound to the parameter space of an FM-synthesizer. In order to investigate the capabilities of ML to implicitly learn to make the mentioned key desicions in FM, we design and compare two approaches: first a concurrent approach where all parameter values are compared at once by one model, and second a sequential approach where the prediction is done by a mix of classifiers and regressors. We evaluate the performance of the approaches with respect to ability to reproduce instrumental sound samples from a dataset of 2255 sam- ples from over 700 instrument in three different pitches with respect to four different distance metrics, . The results indicate that both approaches have similar performance at predicting parameters which reconstruct the frequency magnitude spectrum and envelope of a target sound. However the results also point at the sequential model being better at predicting the parameters which reconstruct the temporal evolution of the frequency magnitude spectrums. It is concluded that despite the sequential model outperforming the concurrent, it is likely possible for a model to make key decisions implicitly, without ex- plicitly designed subproblems.
BOSTRÖM, HENRIK
ING - Scuola di Ingegneria Industriale e dell'Informazione
3-ott-2019
2018/2019
La ri-sintesi basata sulla modulazione di frequenza (FM) - per trovare i valori dei parametri che meglio fanno in modo che un sintetizzatore FM produca un suono di uscita il più simile possibile a un determinato suono target - è un problema difficile. Lo spazio di ricerca di un sintetizzatore commerciale è spesso non lineare e di alta dimensione. Inoltre, alcune decisioni cruciali devono essere prese come la scelta del numero di oscillatori modulanti o l'algoritmo con il quale si modulano l'un l'altro. In questo lavoro proponiamo di utilizzare Machine Learning (ML) per apprendere una mappatura dal suono target allo spazio dei parametri di un sintetizzatore FM. Al fine di studiare le capacità di ML di imparare implicitamente a formulare le suddette decisioni chiave in FM, progettiamo e confrontiamo due approcci: in primo luogo un approccio simultaneo in cui tutti i valori dei parametri vengono confrontati contemporaneamente da un modello, e in secondo luogo un approccio sequenziale in cui il la previsione è fatta da un mix di classificatori e regressori. Valutiamo le prestazioni degli approcci rispetto alla capacità di riprodurre campioni sonori strumentali da un set di dati di 2255 campioni da oltre 700 strumenti in tre tonalità diverse rispetto a quattro diverse metriche di distanza. I risultati indicano che entrambi gli approcci hanno prestazioni simili nel predire i parametri che ricostruiscono lo spettro di magnitudo della frequenza e l'inviluppo di un suono target. Tuttavia, i risultati indicano anche che il modello sequenziale è più efficace nel prevedere i parametri che ricostruiscono l'evoluzione temporale degli spettri di magnitudo di frequenza. Si è concluso che, nonostante il modello sequenziale sovraperforma quello concorrente, è probabile che un modello prenda decisioni chiave implicitamente, senza sottoproblemi esplicitamente progettati.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
Master_Thesis_Final_Polimi_Philip_Claesson.pdf

accessibile in internet per tutti

Descrizione: philip claesson master thesis
Dimensione 4.61 MB
Formato Adobe PDF
4.61 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/149865