Individual semantic modeling for music information retrieval

De gustibus non disputandum is a popular common saying. This is most true in music, with people having different tastes and expressing most of them by using different words. Often different users use the same words to descrive slightly different concepts. Since one of the major tasks in music industry is recommendation of songs, this poses a problem of concept modeling and of coherence between the representation models of different people. The aim of this work is thus to model the way people personally describe music and make it in such a way to grant comparability between different individuals. This will be done by considering a dictionary for each person, made by the words he or she uses to describe music, and extracting from the computable characteristics of songs a specific measure of their similarity related to each term in the dictionary. The process will be exploited through a machine learning procedure implementing an algorithm which derives a non-linear correlation out of the data. Once gathered the subjective models in the shape of principal components, it will be possible to compare them and connect people showing similar interests, even when these are addressed with different semantics. The described procedure can be useful in a successive step to generate a new recommender system based on collaborative filtering, which is supposed to improve with respect to an approach based solely on the correspondance of the songs listened. Moreover, by integrating the models with users metadata, it is possible to smoothen two known issues of the architecture: the cold-start problem, which consists in the lack of data for modeling new users, and the behaviour in the long tail, meaning the possibility of the system failing to provide enough innovation in its suggestions.

De gustibus non disputandum è un celebre modo di dire. Questo è soprattutto vero nella musica, campo in cui gli individui presentano gusti differenti e li esprimono perlopiù con l’utilizzo di termini diversi, anche nel caso le preferenze coincidano. Poiché uno dei più importanti obiettivi dell’industria musicale è la raccomandazione di contenuti audio, questo pone un problema di modellazione di contenuti e di coerenza tra sistemi di rappresentazione appartenenti a persone diverse. Lo scopo di questa tesi è pertanto di costruire un modello personalizzato di descrizione dei contenuti musicali e renderlo tale da garantire la comparabilità tra individui differenti. Questo lavoro sarà compiuto considerando un dizionario per ogni individuo, creato sulla base dei termini che quest’ultimo utilizza per descrivere i suoi gusti musicali, ed estrarre dalle caratteristiche acustiche delle canzoni una misura specifica, che tenga conto della similarità tra ogni parola del dizionario. Questo processo si svolgerà attraverso una procedura di machine learning, la quale implementerà un algoritmo teso a derivare dai dati una correlazione di tipo non lineare. Una volta riuniti i modelli soggettivi nella forma di componenti principali, sarà possibile paragonarli e, di conseguenza, mettere in connessione profili che mostrino interessi simili, anche qualora questi si manifestassero attraverso sistemi semantici differenti. La procedura qui descritta sarà utile, in un passaggio successivo, per creare un nuovo sistema di raccomandazione, basato sul collaborative filtering, la cui resa sarà migliore rispetto a un approccio solamente basato sulla corrispondenza nello storico degli ascolti individuali. Inoltre, potendo integrare questo modello con metadati relativi agli utenti, sarà possibile affrontare due problemi noti dei sistemi di raccomandazione allo stato dell’arte: il problema del cold start, che consiste nell’assenza di dati iniziali per la modellazione di un utente nuovo al sistema, e il comportamento nella long tail, inteso come la possibilità che il sistema non sia in grado di produrre suggerimenti di ascolto agli utenti con un buon grado di innovatività rispetto al loro storico.