Musical instrument recognition : a transfer learning approach

The advent of the digital era has made possible to access to a huge amount of musical content. Digital distributors, such as Spotify, Deezer, or Apple Music, provide a great number of musical pieces available just a click away, often organized in catalogues. However, as the amount of available music grows, it becomes more difficult for the users to search among these vast catalogues. As a consequence, there is a strong need to organize musical pieces, in order to allow the users to be able to perform effective and efficient research. As the manual annotation process would be too expensive, it is mandatory to find an automatic solution. A meaningful description of musical pieces requires to include information about the activity of instruments playing. In this work, we present an approach for automatic musical instrument recognition. Our work employs Deep Learning Networks, mathematical models inspired by the brain functioning which try to mimic its flexibility in the learning process. These networks, which have become popular in the machine learning community, process information and are able to infer a higher level of abstraction characterization, starting from the input data. For our work, we developed a method able to recognize 20 different musical instruments in musical pieces. It implies that, given an audio clip, we are able to extract which musical instruments are playing. In order to effectively recognize musical instruments, it is necessary to learn their characterization. To do so, Deep Learning approaches need to analyse huge amount of audio data. One of the problems encountered in the literature is the lack of enough data to learn the musical instrument characterization. To solve this problem, our approach relies on the transfer learning technique, which exploits the knowledge learned in a domain and attempts to apply it to another. We exploit a model trained on a large dataset for the task of Sound Event Detection, and apply it in the domain of musical instrument recognition. We believe the characterization learned by this model is relevant for our task, due to their similarity. In fact, the results obtained by this approach outperform the state-of-the-art. Moreover, this approach allows us to compute the model in less time than the state-of-the-art techniques. As the input data must be labelled for the model to learn, part of this work has been concerned in setting up a survey in order to augment the data already present in the dataset we used. After developing our technique, in order to assess its robustness, we compared it with state-of-the-art methods from the literature on different datasets.

L'avvento dell'era digitale ha reso possibile l'accesso ad una vasta quantità di contenuti musicali. I servizi di streaming come Spotify, Deezer o Apple Music offrono una grande varietà di brani musicali a portata di click, organizzati in cataloghi. Tuttavia, con l'aumento delle dimensioni di queste librerie, diventa sempre più difficile per l'utente fare una ricerca efficiente ed efficace. Di conseguenza, c'è la necessità di organizzare i cataloghi, in modo da permettere agli utenti di cercare facilmente il contenuto di interesse. Dal momento che l'annotazione manuale risulterebbe troppo dispendiosa, è necessario automatizzare il processo. Una descrizione significativa di un brano musicale comprende informazioni riguardanti gli strumenti musicali presenti al suo interno. In questo lavoro mostriamo il nostro approccio per l'automatizzazione del riconoscimento di strumenti musicali. Il nostro lavoro si basa sulle reti neurali denominate Deep Neural Networks, modelli matematici che sono ispirati al cervello e che ne imitano il suo funzionamento e la sua flessibilità nell'apprendimento. Queste reti, diventate molto popolari nella comunità scientifica del machine learning per via delle loro efficacia, elaborano i dati in ingresso estraendo delle caratterizzazioni ad alto livello delle informazioni contenute in essi. Nel nostro lavoro abbiamo sviluppato un metodo capace di identificare 20 strumenti musicali differenti in un estratto musicale. Ciò significa che possiamo estrarre l'informazione su quali strumenti musicali sono attivi all'interno dell'estratto musicale. Perché questi metodi funzionino, è necessario imparare la caratterizzazione degli strumenti musicali. Per fare ciò, i metodi Deep Learning sfruttano enormi quantità di dati. Una delle problematiche trovate nella letteratura è l'assenza di una quantità adeguata di dati per imparare la caratterizzazione. Per risolvere questa problematica, nel nostro approccio utilizziamo la tecnica denominata transfer learning, che sfrutta l'apprendimento effettuato in un dominio e cerca di applicarlo in un nuovo ambito. Sfruttiamo un modello addestrato su un abbondante dataset per il compito denominato Sound Event Detection (rilevamento di eventi sonori), e lo utilizziamo nel nostro ambito di riconoscimento di strumenti musicali. Riteniamo che la caratterizzazione imparata da questo modello sia adeguata al nostro obbiettivo, per via della loro similarità. Infatti, i risultati ottenuti con questo approccio superano quelli dello stato dell'arte. Inoltre, questo approccio ci permette di sviluppare il modello in tempistiche ridotte rispetto a quelle delle tecniche dello stato dell'arte. Dal momento che, per addestrare il modello, i dati in ingresso devono essere annotati riguardo gli strumenti musicali attivi, parte di questo lavoro è stata dedicata all'organizzazione di un sondaggio in modo da estendere i dati già presenti nel dataset che abbiamo usato. Dopo aver sviluppato il nostro approccio, col fine di testare la sua robustezza, lo abbiamo confrontato con altri lavori della letteratura svolti su altri dataset.