Learning a personalized similarity metric for musical content

Nowadays people have the chance to easily access a wide amount of music by means of many services. As users are not able to handle such wide music catalogs on their own, services need techniques able to automatically assist them. In order to do that, services rely on the evaluation of song similarity. As music is multi-faceted, users tend to evaluate similarity in different ways. Thus the concept of music similarity is highly subjective. Consequently, also services must evaluate music similarity in a personalized way. As many users exploits music fruition services, we need scalable methods. So, we must adopt a content-based approach, as content-based approaches rely on content-related information computed from the audio track, thus always available. However, in order to elaborate a subjective similarity metric, content-based techniques need to be combined with music similarity informations provided by the user himself. So, in this thesis we present a hybrid model for personalized similarity modeling that relies on both content-based and user-related similarity information. The goal is to elaborate a metric able to relate content-based and the similarity information provided by the user. To do so, we proposed a method that relies on a two-stage procedure. We first exploit a non-metric scaling technique to first elaborate a low-dimensional space (or embedding) which fulfills the similarity information provided by the user. Then we exploit a regression technique in order to learn a mapping able to relate content-based information and embedding-related information. We kernelize the regression procedure adopting a non-linear kernel function. In order to enhance the generalization properties of the method, we also combine the regression operation with a feature selection algorithm. The result is a novel content-based method for learning a personalized similarity metric for musical content. The experiments that we conducted in order to assess the generalization properties of our method show that it is able to provide good performances, even when data are divided adopting a rigid data division method.

Oggi è possibile accedere ad una vasta quantità di musica attraverso vari servizi. La quantità di musica disponibile è tale per cui l'utente non è in grado di gestirla autonomamente. Per cui, i vari servizi devono dotarsi di tecniche in grado di aiutare ogni utente in maniera automatica. Per farlo, i servizi devono basarsi sulla stima delle similarità tra canzoni. Ma poichè la musica è un fenomeno complesso e multiforme, la similarità tra canzoni può essere valutata secondo varie prospettive, ed ogni utente tende ad avere la propria visione di similarità. Per soddisfare appieno gli utenti, dunque, la valutazione della similarità da parte dei servizi deve ricalcare quella dell'utente. Poichè il numero di utenti a cui rivolgersi è elevato, occorrono tecniche di modellazione della similarità scalabili. Per cui, scegliamo un approccio basato sul contenuto, poichè l'informazione sul contenuto è sempre disponibile, data la canzone. Tuttavia, per poter apprendere una metrica di similarità personalizzata, tali metodi devono includere delle informazioni sulla similarità percettiva fornite dell'utente. Motivo per cui in questa tesi presentiamo un approccio ibrido in grado di combinare i due tipi di informazione : contenuto e similarità utente. L'obiettivo è quello di apprendere una metrica in grado di mettere in relazione le informazioni di contenuto e la similarità percettiva. Il metodo proposto si basa su un approccio bifase. Una tecnica di non metric scaling si occupa prima di elaborare uno spazio geometrico modellato sulla base delle informazioni sulla similarità fornite dall'utente. Poi una tecnica di regressione apprende un mapping in grado di relazionare l'informazione di contenuto e lo spazio appreso. La procedura di regressione è sia resa non lineare tramite un kernel non lineare, sia combinata con una procedura di feature selection in modo da massimizzare le capacità di generalizzazione del metodo. Il risultato è un nuovo metodo capace di apprendere una metrica di similarità. Gli esperimenti condotti dimostrano che il metodo fornisce buone prestazioni di generalizzazione, anche quando viene applicata rigida una divisione tra dati di apprendimento e di test.