Due to the large diffusion of internet and of multimedia digital formats, the way people deal with music has been radically changing over the last few years: what is becoming more and more important for many applications in this field is the effectiveness in describing, retrieving and classifying informations able to distinguish a specific musical content over a countless number of others. In the last few years, research has found that much of that kind of information lies on the rhythmic characterization of a music excerpt and has come to great achievements towards the challenging goal of transcribing percussive elements from the complex mixture of different sounds. Many possible approaches have been developed so far, often combining source separation methods with tempo extraction techniques and classification based on audio features and statistics. The piece of work presented in this thesis consists of an automatic drum transcription algorithm, developed as an improvement and an enhancement of the technique known as Prior Subspace Analysis (PSA). Our efforts aim at increasing the effectiveness of the transcription creating a consistent training set, then adding an error correction through the analysis of the features of each drum part, and finally extending the capabilities of the algorithm to the recognition of tom drums, while mainly kick and snare drum were analysed in past studies. These implementation steps have been followed by a phase during which our system has been tested on a number of polyphonic music recordings, measuring its performance by the means of standard parameters like precision, recall and f-measure. The obtained results are encouraging: transcription returned an f-measure up to almost 90%, showing an improvement of about 10% over the original PSA algorithm.
A causa della grande diffusione di internet e della digitalizzazione dei formati multimediali, il modo in cui le persone interagiscono con la musica è cambiato radicalmente negli ultimi anni: l'obiettivo di maggior importanza per le nuove applicazioni in questo campo è divenuto l'efficacia nell'estrarre, descrivere e classificare le informazioni utili a distinguere, tra un enorme numero di possibili candidati, uno specifico contenuto musicale. Negli ultimi anni la ricerca in questo ambito ha dimostrato come si possa estrarre una notevole quantità di informazioni su di un contenuto musicale in esame attraverso l'analisi delle sue caratteristiche ritmiche, e ha raggiunto ottimi risultati nella trascrizione automatica delle occorrenze di suoni percussivi partendo da complessi mix audio composti da suoni differenti. Sono stati proposti molti possibili approcci alla soluzione di questo problema di trascrizione, facendo sovente uso di algoritmi di separazione delle fonti sonore, combinati con tecniche di estrazione della scansione temporale e con metodi di classificazione basati sull'estrazione di audio features. Il risultato del lavoro di ricerca presentato in questa tesi è un metodo di trascrizione automatica della batteria, sviluppato come un'estensione ed un miglioramento della tecnica conosciuta come Prior Subspace Analysis. Lo sforzo progettuale è stato mirato ad aumentare l'efficacia della trascrizione, attraverso la costruzione di un dataset adatto alla fase di training, l'aggiunta un sistema di correzione per gli errori di trascrizione tramite analisi delle features di ogni componente della batteria preso in esame, e inserendo inoltre un'estensione dell'algoritmo per il riconoscimento dei tom--tom, laddove fino ad ora il testing era stato limitato alla grancassa ed al rullante. Allo sviluppo sopra descritto è seguita una fase di verifica, in cui il sistema è stato testato su una serie di brani di musica moderna, valutandone la performance tramite parametri standard come precision, recall e f-measure. I risultati ottenuti sono stati incoraggianti: il testing della trascrizione è stato caratterizzato da valori di f-measure fino al 90%, mostrando un miglioramento di circa il 10% rispetto all'algoritmo PSA originale.
Automatic drum trascription based on joint prior subspace and feature-based analysis
MAFFEI, FEDERICO;GIUBILEO, DARIO
2010/2011
Abstract
Due to the large diffusion of internet and of multimedia digital formats, the way people deal with music has been radically changing over the last few years: what is becoming more and more important for many applications in this field is the effectiveness in describing, retrieving and classifying informations able to distinguish a specific musical content over a countless number of others. In the last few years, research has found that much of that kind of information lies on the rhythmic characterization of a music excerpt and has come to great achievements towards the challenging goal of transcribing percussive elements from the complex mixture of different sounds. Many possible approaches have been developed so far, often combining source separation methods with tempo extraction techniques and classification based on audio features and statistics. The piece of work presented in this thesis consists of an automatic drum transcription algorithm, developed as an improvement and an enhancement of the technique known as Prior Subspace Analysis (PSA). Our efforts aim at increasing the effectiveness of the transcription creating a consistent training set, then adding an error correction through the analysis of the features of each drum part, and finally extending the capabilities of the algorithm to the recognition of tom drums, while mainly kick and snare drum were analysed in past studies. These implementation steps have been followed by a phase during which our system has been tested on a number of polyphonic music recordings, measuring its performance by the means of standard parameters like precision, recall and f-measure. The obtained results are encouraging: transcription returned an f-measure up to almost 90%, showing an improvement of about 10% over the original PSA algorithm.| File | Dimensione | Formato | |
|---|---|---|---|
|
2011_03_Giubileo_Maffei.PDF
accessibile in internet per tutti
Descrizione: Thesis text
Dimensione
1.16 MB
Formato
Adobe PDF
|
1.16 MB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/12664