With the proliferation of audio digital formats and music digital distribution services, one of most significant problem arose in past few years in Digital Music Analysis and Music Information Retrieval is Cover Song Identifica- tion. In order to tackle the Cover Song Identification problem there is the need of extracting a relevant set of features able to characterize the music signal. Several procedures are proposed in literature in order to produce an accurate perceptual model that addresses this problem. Because of the complexity of the human perceptual abilities it is not possible to retain all the useful information and the currently available methodologies are not able to fully address this task. The most recent works extend the perceptual model introducing the image representation of the audio signals in order to retain a higher amount of useful information. In particular the Spectrogram and the Chromagram are used to represent the observed music excerpts in the 2D domain. Then, by means of SIFT algorithm, a robust local image feature extraction method, it is possible to retrieve a highly characterizing set of features from the image domain representation of the audio data. It possible to compare the extracted sets of features from two different songs in order to compute a similarity measure between them. The use of SIFT is proven to be very effective yet computationally costly both in terms of cpu load and processing time. The goal of our study is to analyze other local image feature extraction methods and to compare their performance in the Cover Song Identification scenario. In particular we adopt SURF, BRISK and ORB. These algorithms are devised in order to tackle the computational problems of SIFT approach. As a result these methodologies are faster than SIFT while retaining a comparable match rate. We performed two specific test cases. In the first we make use of a synthetically generated dataset composed by several versions of the original songs processed with various audio manipulation techniques. The second test is developed on a real cover scenario in which we employ real pairs of original and cover songs. The experimental results on both tests prove that SIFT provides the higher match rate but longer computational time with respect to the other proposed algorithms.

Con la proliferazione dei formati audio digitali e dei servizi di distribuzione di musica digitale, una delle problematiche più significative sorte negli ultimi anni nei campi della Digital Music Analysis e della Music Information Retrieval è la Cover Song Identification. Al fine di affrontare il problema della Cover Song Identification è necessario estrarre un insieme rilevante di features in grado di caratterizzare il segnale musicale. In letteratura sono state introdotte diverse procedure per riprodurre un modello percettivo accurato in grado di affrontare questo problema. A causa della complessità delle abilità percettive umane non è possibile individuare tutte le informazioni utili e le metodologie attualmente disponibili non sono in grado di affrontare a pieno questo compito. I lavori più recenti estendono il modello percettivo rappresentando i segnali audio attraverso un'immagine al fine di ritenere una quantità maggiore di informazioni utili. In particolare per rappresentare i frammenti musicali nel dominio 2D vengono usati lo Spettrogramma e il Cromagramma. In seguito, tramite l'algoritmo SIFT, che permette di estrarre feature locali dalle immagini, è possibile ottenere un insieme di feature altamente caratterizzante dei dati audio partendo dalla loro rappresentazione nel dominio delle immagini. E' possibile quindi confontare gli insiemi di feature estratti da due brani diversi per calcolarne il valore di somiglianza. E' dimostrato che l'utilizzo del SIFT risulta essere molto efficace ma computazionalmente costoso sia in termini di carico della cpu sia in termini di tempi di calcolo. Lo scopo del nostro studio è di analizzare altri descrittori locali di immagini al fine di confrontare le loro prestazioni nello scenario della Cover Song Identification. In particolare usiamo SURF, BRISK and ORB. Questi algoritmi sono stati concepiti per ridurre i problemi computazionali del SIFT; risultano infatti essere più veloci pur mantenendo un'accuratezza simile. Abbiamo effettuato due test specifici: nel primo abbiamo usato un dataset sintetico composto da diverse versioni dei brani originali processati mediante varie tecniche di manipolazione audio, mentre il secondo test è stato effettuato in uno scenario reale in cui abbiamo utilizzato coppie composte da un brano originale e rispettiva cover. I risultati sperimentali in entrambi i test effettuati dimostrano che il SIFT garantisce il miglior match rate a discapito di tempi computazionali più elevati rispetto agli altri algoritmi introdotti.

Robust cover identification approach based on local spectrogram and chromagram image descriptors

LUSARDI, STEFANO
2015/2016

Abstract

With the proliferation of audio digital formats and music digital distribution services, one of most significant problem arose in past few years in Digital Music Analysis and Music Information Retrieval is Cover Song Identifica- tion. In order to tackle the Cover Song Identification problem there is the need of extracting a relevant set of features able to characterize the music signal. Several procedures are proposed in literature in order to produce an accurate perceptual model that addresses this problem. Because of the complexity of the human perceptual abilities it is not possible to retain all the useful information and the currently available methodologies are not able to fully address this task. The most recent works extend the perceptual model introducing the image representation of the audio signals in order to retain a higher amount of useful information. In particular the Spectrogram and the Chromagram are used to represent the observed music excerpts in the 2D domain. Then, by means of SIFT algorithm, a robust local image feature extraction method, it is possible to retrieve a highly characterizing set of features from the image domain representation of the audio data. It possible to compare the extracted sets of features from two different songs in order to compute a similarity measure between them. The use of SIFT is proven to be very effective yet computationally costly both in terms of cpu load and processing time. The goal of our study is to analyze other local image feature extraction methods and to compare their performance in the Cover Song Identification scenario. In particular we adopt SURF, BRISK and ORB. These algorithms are devised in order to tackle the computational problems of SIFT approach. As a result these methodologies are faster than SIFT while retaining a comparable match rate. We performed two specific test cases. In the first we make use of a synthetically generated dataset composed by several versions of the original songs processed with various audio manipulation techniques. The second test is developed on a real cover scenario in which we employ real pairs of original and cover songs. The experimental results on both tests prove that SIFT provides the higher match rate but longer computational time with respect to the other proposed algorithms.
ZANONI, MASSIMILIANO
ING - Scuola di Ingegneria Industriale e dell'Informazione
27-lug-2016
2015/2016
Con la proliferazione dei formati audio digitali e dei servizi di distribuzione di musica digitale, una delle problematiche più significative sorte negli ultimi anni nei campi della Digital Music Analysis e della Music Information Retrieval è la Cover Song Identification. Al fine di affrontare il problema della Cover Song Identification è necessario estrarre un insieme rilevante di features in grado di caratterizzare il segnale musicale. In letteratura sono state introdotte diverse procedure per riprodurre un modello percettivo accurato in grado di affrontare questo problema. A causa della complessità delle abilità percettive umane non è possibile individuare tutte le informazioni utili e le metodologie attualmente disponibili non sono in grado di affrontare a pieno questo compito. I lavori più recenti estendono il modello percettivo rappresentando i segnali audio attraverso un'immagine al fine di ritenere una quantità maggiore di informazioni utili. In particolare per rappresentare i frammenti musicali nel dominio 2D vengono usati lo Spettrogramma e il Cromagramma. In seguito, tramite l'algoritmo SIFT, che permette di estrarre feature locali dalle immagini, è possibile ottenere un insieme di feature altamente caratterizzante dei dati audio partendo dalla loro rappresentazione nel dominio delle immagini. E' possibile quindi confontare gli insiemi di feature estratti da due brani diversi per calcolarne il valore di somiglianza. E' dimostrato che l'utilizzo del SIFT risulta essere molto efficace ma computazionalmente costoso sia in termini di carico della cpu sia in termini di tempi di calcolo. Lo scopo del nostro studio è di analizzare altri descrittori locali di immagini al fine di confrontare le loro prestazioni nello scenario della Cover Song Identification. In particolare usiamo SURF, BRISK and ORB. Questi algoritmi sono stati concepiti per ridurre i problemi computazionali del SIFT; risultano infatti essere più veloci pur mantenendo un'accuratezza simile. Abbiamo effettuato due test specifici: nel primo abbiamo usato un dataset sintetico composto da diverse versioni dei brani originali processati mediante varie tecniche di manipolazione audio, mentre il secondo test è stato effettuato in uno scenario reale in cui abbiamo utilizzato coppie composte da un brano originale e rispettiva cover. I risultati sperimentali in entrambi i test effettuati dimostrano che il SIFT garantisce il miglior match rate a discapito di tempi computazionali più elevati rispetto agli altri algoritmi introdotti.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
Tesi_Stefano_Lusardi.pdf

accessibile in internet per tutti

Descrizione: M.Sc. Thesis
Dimensione 12.49 MB
Formato Adobe PDF
12.49 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/123608