The advent of the digital era has increased the amount of music that people can access to. Nowadays, several streaming services provide access to a large catalog of music and automatic systems capable of assist users are needed. Most of them recommend music or build playlists in an automatic way, proposing songs relying on a music similarity metric. This music similarity metric must reflect the semantic concepts used by people to describe music. Thus, information has to be retrieved from music items. Music Information Retrieval (MIR) is the research field that copes with the extraction of information from music. In MIR literature, music similarity is computed using methods that deal with semantic information provided by users or with descriptors extracted from the audio signal. Such methods are not feasible for automatically capturing a high-level representation of music. Inspired by human brain, that processes information by building different levels of abstraction, Deep Neural Networks are widely employed to mimic this process and automatically extract a high-level representation of the input. Deep Neural Networks are commonly trained with data reflecting the consensus of a group of people. Yet, as proved by researchers, music similarity is an extremely subjective concept, hence the similarity metric must take into account user's perception and tastes. In this thesis we propose an approach to model a personalized music similarity metric based on a Deep Neural Network. To address the problem of lack of personalized data, we devise a two-stage approach. A first stage for learning a generic music similarity metric relying on a great amount of data. A second stage for customizing it using personalized annotations collected through a survey. The model tuned with personalized data provides accurate results in assessing similarity for single users.

Nell'era digitale la quantità di musica accessibile dalle persone è aumentata. Diversi servizi di streaming offrono un vasto catalogo musicale e sono necessari sistemi per assistere gli utenti. Tali sistemi suggeriscono musica o generano playlist in modo automatico basandosi su una metrica di similarità musicale. La metrica di similarità deve riflettere i concetti semantici utilizzati dalle persone quando descrivono la musica. Dunque, varie informazioni devono essere estratte da essa. Un campo di ricerca, chiamato Music Information Retrival (MIR), si occupa di elaborare metodi per recuperare informazioni dalla musica. In letteratura, la similarità musicale è esaminata con metodi che sfruttano informazioni semantiche fornite dagli utenti oppure descrittori estratti dal segnale audio; tuttavia tali metodi non sono efficaci per estrarre automaticamente una rappresentazione semantica della musica. Basandosi sul funzionamento del cervello umano, che processa informazioni costruendo diversi livelli di astrazione, le reti neurali sono largamente impiegate per imitarlo ed estrarre una rappresentazione di alto livello dell'input. Le reti neurali sono di solito addestrate con dati che riflettono il consenso di un gruppo di persone. Come già dimostrato, la similarità musicale è però un concetto soggettivo. Dunque, la similarità deve tenere in considerazione sia la percezione che i gusti dell’utente. In questa tesi proponiamo un approccio basato su una rete neurale per imparare una metrica di similarità musicale personalizzata. Al fine di far fronte alla mancanza di dati personalizzati, abbiamo sviluppato un metodo diviso in due fasi: la prima in cui la rete impara una metrica di similarità generica facendo uso di una grande quantità di dati; la seconda in cui la metrica appresa precedentemente è personalizzata per ogni utente utilizzando annotazioni di similarità raccolte tramite un sondaggio. Il modello finale esibisce risultati migliori rispetto al modello derivato dalla prima fase.

A personalized metric for music similarity using Siamese deep neural networks

SALA, FEDERICO
2016/2017

Abstract

The advent of the digital era has increased the amount of music that people can access to. Nowadays, several streaming services provide access to a large catalog of music and automatic systems capable of assist users are needed. Most of them recommend music or build playlists in an automatic way, proposing songs relying on a music similarity metric. This music similarity metric must reflect the semantic concepts used by people to describe music. Thus, information has to be retrieved from music items. Music Information Retrieval (MIR) is the research field that copes with the extraction of information from music. In MIR literature, music similarity is computed using methods that deal with semantic information provided by users or with descriptors extracted from the audio signal. Such methods are not feasible for automatically capturing a high-level representation of music. Inspired by human brain, that processes information by building different levels of abstraction, Deep Neural Networks are widely employed to mimic this process and automatically extract a high-level representation of the input. Deep Neural Networks are commonly trained with data reflecting the consensus of a group of people. Yet, as proved by researchers, music similarity is an extremely subjective concept, hence the similarity metric must take into account user's perception and tastes. In this thesis we propose an approach to model a personalized music similarity metric based on a Deep Neural Network. To address the problem of lack of personalized data, we devise a two-stage approach. A first stage for learning a generic music similarity metric relying on a great amount of data. A second stage for customizing it using personalized annotations collected through a survey. The model tuned with personalized data provides accurate results in assessing similarity for single users.
BUCCOLI, MICHELE
ZANONI, MASSIMILIANO
ING - Scuola di Ingegneria Industriale e dell'Informazione
18-apr-2018
2016/2017
Nell'era digitale la quantità di musica accessibile dalle persone è aumentata. Diversi servizi di streaming offrono un vasto catalogo musicale e sono necessari sistemi per assistere gli utenti. Tali sistemi suggeriscono musica o generano playlist in modo automatico basandosi su una metrica di similarità musicale. La metrica di similarità deve riflettere i concetti semantici utilizzati dalle persone quando descrivono la musica. Dunque, varie informazioni devono essere estratte da essa. Un campo di ricerca, chiamato Music Information Retrival (MIR), si occupa di elaborare metodi per recuperare informazioni dalla musica. In letteratura, la similarità musicale è esaminata con metodi che sfruttano informazioni semantiche fornite dagli utenti oppure descrittori estratti dal segnale audio; tuttavia tali metodi non sono efficaci per estrarre automaticamente una rappresentazione semantica della musica. Basandosi sul funzionamento del cervello umano, che processa informazioni costruendo diversi livelli di astrazione, le reti neurali sono largamente impiegate per imitarlo ed estrarre una rappresentazione di alto livello dell'input. Le reti neurali sono di solito addestrate con dati che riflettono il consenso di un gruppo di persone. Come già dimostrato, la similarità musicale è però un concetto soggettivo. Dunque, la similarità deve tenere in considerazione sia la percezione che i gusti dell’utente. In questa tesi proponiamo un approccio basato su una rete neurale per imparare una metrica di similarità musicale personalizzata. Al fine di far fronte alla mancanza di dati personalizzati, abbiamo sviluppato un metodo diviso in due fasi: la prima in cui la rete impara una metrica di similarità generica facendo uso di una grande quantità di dati; la seconda in cui la metrica appresa precedentemente è personalizzata per ogni utente utilizzando annotazioni di similarità raccolte tramite un sondaggio. Il modello finale esibisce risultati migliori rispetto al modello derivato dalla prima fase.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
thesis_852451.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Testo della tesi
Dimensione 2.14 MB
Formato Adobe PDF
2.14 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/139078