Musical genre classification and tracking based on clustering driven high level features

The coming of the digital era and the large scale diffusion of internet made multimedia one of the main means of information and comunication of these days. The fruition of audio and video digital content has grown exponentially, thanks to their creation, distribution and sharing. Talking specifically about music, a great quantity of services and software dedicated to its production, analysis, reproduction and research has been developed, dedicated to all kinds of users (professional, amateur and common ones). The field of research alllowing these technologies is called Music Information Retrieval (MIR). Among this interdisciplinary science, one of the most challenging tasks is the automatic musical genre classification; the aim of this problem is to automatically categorize audio excerpts according to a taxonomy of classes. Usual works in this direction use low-level features to describe a training dataset and give the resulting data points distribution to a classifier, which classifies unlabeled data according to a supervised learning process. Such low-level descriptors have no immediate meaning to humans (experts or common users), but can be used by a machine to discriminate between classes. Lately, though, part of the research is focused on the implementation of systems adopting high-level features to describe audio signals; using a higher abstraction level, these descriptors acquire an intelligible music meaning; they could therefore be used by experts and common users, opening new implementation possibilities. An issue in using these type of features is their definition, which is usually done in a subjective way by selecting the low-level descriptors which by guess should resemble a high-level characteristic if combined. This thesis proposes an objective, example-based method to define a set of high-level features and use them to perform genre classification. The definition is obtained by finding the set of low-level features best clusterizing a training dataset, and modeling the resulting clusters through a statistical model using a GMM classifier. The classification step is instead performed with an SVM classifier, using only the derived high-level features. Two approaches are implemented: one, following a bottom-up fashion, aims to find out if compact and well separated clusters deliver a more efficient classification. The other, following a top-down fashion, aims at finding the subset of low-level features forming the clusters that achieve the best classification. Experimental results show promising results, especially for the top-down approach.

L'avvento dell'era digitale e la diffusione su larga scala di internet hanno reso i contenuti multimediali i principali veicoli di informazione e comunicazione di oggi. La fruizione di audio e video è cresciuta esponenzialmente, grazie alla facilità con cui sono creati, distribuiti e condivisi. Parlando nello specifico dell'ambito musicale, sono stati sviluppati moltissimi servizi e software dedicati alla sua produzione, analisi, riproduzione e ricerca, dedicati a tutti i tipi di utenti (professionisti, amatori e utenti comuni). Il campo di ricerca che permette l'implementazione di queste tecnologie è chiamato Music Information Retrieval (MIR). Uno dei problemi più ostici di questa disciplina è il riconoscimento automatico del genere musicale, il cui obiettivo è quello di categorizzare automaticamente brani audio rispetto ad una tassonomia di classi. La maggior parte dei lavori svolti in questa direzione usa descrittori di basso livello per descrivere un dataset di training e fornisce la distribuzione di punti di dati risultante ad un classificatore, che decide il genere musicale di dati senza etichetta attraverso un processo di apprendimento supervisionato. I descrittori di basso livello non hanno un significato semantico intellegibile, ma possono essere usati da sistemi informatici per la discriminazione tra classi. Ultimamente, tuttavia, parte della ricerca è mirata all'implementazione di sistemi che adottino caratteristiche di alto livello per descrivere un segnale audio; usando un livello di astrazione più elevato, i descrittori acquistano un significato musicale comprensibile anche all'utente finale, e possono aprire nuove possibilità di implementazione. Un problema riguardante questo tipo di descirittori è la loro definizione, che è generalmente svolta in modo soggettivo, selezionando i descrittori di basso livello che intuitivamente dovrebbero definire una caratteristica musicale se combinati. Questa tesi propone un metodo oggettivo e bassato su esempio per definire un insieme di feature di alto livello e le usa per la classificazione del genere musicale. La definizione dei descrittori di alto livello è ottenuta trovando il sottoinsieme di caratteristiche di basso livello che meglio clusterizza un dataset di training, e modellando i cluster risultanti attraverso un modello statistico usando un classificatore GMM. La fase di classificazione è invece svolta tramite un classificatore SVM, usando unicamente i descrittori di alto livello precedentemente implementati Sono stati implemntati due approcci: il primo, seguendo un percorso bottom-up, è mirato a capire se cluster compatti e ben separati forniscano una classificazione più efficiente. Il secondo, seguendo un percorso top-down, è mirato a trovare il sottoinsieme di descrittori di basso livello che formi i cluster che portano alla accuracy più alta possibile. I risultati ottenuti mostrano risultati promettenti, specialmente per quanto riguarda l'approccio top-down.