Audio features compensation based on coding bitrate

During the past years, due to the advent of digital media, the way in which we were used to buy, collect and discover music has drastically changed. Personal music collections have reached enormous sizes thanks to the increase of digital storage capability and the advent of musical streaming services has enlarged the online availability of music. In this scenario arises the need for methods capable of organizing, browsing and classifying such huge music collections. Music Information Retrieval (MIR) is a research field that deals with the retrieval of useful informations from music. The most used informations in the MIR field are the one that are extracted directly from the audio file and we refer to them as being features or audio descriptors. One of the main problems inside the scientific community of MIR is the difficulty for researchers in finding uniform audio collections (i.e. audio collections com- posed of songs that are encoded with the same encoding parameters). The problem arises when non-uniform collections are used in MIR final applications, such as classification or clustering techniques. This fact leads to having a non-uniform set of audio descriptors, since features values appear to be influenced by lossy audio compression and in particular by the bit rate value used during the encoding process. This thesis work proposes various methods that are capable of unify- ing such non-uniform music collections by compensating features values extracted from songs encoded at some bit rate value as if they were extracted from song encoded with an higher bit rate value. We will show that it is needed to compensate feature values in the case of a real case MIR scenario such as Music Emotion Recognition (MER), which makes use of various classification and clustering techniques, and that their performances are very much influenced by features extracted from non-uniform music data sets.

Nel corso degli ultimi anni, con l’avvento dei mezzi di comunicazione digitali, il modo in cui si era abituati ad acquistare, collezionare e scoprire la musica è drasticamente cambiato. Le collezioni musicali personali hanno raggiunto dimensioni enormi grazie anche all’incremento della capacità di memoria sui dispositivi digitali e all’avvento di servizi che offrono musica in streaming, aumentando la disponibilità di musica online. In questo scenario insorge la necessità di metodi capaci di organizzare e classificare queste vaste quantità di musica. Music Information Retrieval (MIR) è l’ambito di ricerca che si occupa di recuperare informazioni utili dal contenuto musicale. Il tipo di informazioni più utilizzati in ambito MIR sono quelle che vengono estratte direttamente dal file audio, meglio conosciute nell’ambito come feature o descrittori audio. Uno dei problemi principali all’interno della comunità scientifica del MIR è la difficoltà per i ricercatori nel reperire collezioni audio uniformi (collezioni audio composte da file audio codificati utilizzando gli stessi parametri in fase di compressione). Il problema sorge quando vengono utilizzate collezioni audio non uniformi per applicazioni MIR, come tecniche di classificazione o di clustering. Questo porta ad avere un set non uniforme di descrittori audio, dal momento che i valori delle feature risultano influenzati dalla compressione con perdite (lossy) e, in particolare, dal valore di bit rate utilizzato durante il processo di compressione. Questo lavoro di tesi propone diversi metodi capaci di uniformare collezioni musicali non uniformi attraverso la compensazione dei valori delle feature estratti da canzoni codificate utilizzando un certo valore di bit rate come se fossero estratte da canzoni codificate utilizzando un valore di bit rate più elevato. Mostreremo che è necessario compensare le feature nel caso di applicazioni MIR quali Music Emotion Recognition (MER), che richiede l’utilizzo di varie tecniche di classificazione e di clustering, e che le prestazioni di questi sono influenzate nel caso di feature estratte da un data set musicale non uniforme.