Nowadays, thanks to web platforms, a great amount of new songs are released every day. Hit Song Prediction (HSP) is a field of Music Information Retrieval that aims to investigate whether a song has the potential to become popular or not, in order to help talent scouts, labels and producers to make a first preliminary automatic selection of songs that can be appealing in an artistic or in a market perspective. After examining the current models and techniques employed in HSP, we explore the areas where there is room for improvement. Based on these insights, we outline the decisions that guided the development of our model. The system proposed has the novelty of employing, for the first time in this field, a multi-modal approach based on audio and lyrics embeddings. In detail, when provided with audio, lyrics, and the song’s release year, our model generates a popularity score or classifies the song accordingly. In order to do this it involves a Multi-Layer Perceptron that takes as input features the concatenation of three data: audio embedding extracted from the audio melspectrogram using a ResNet-50, lyrics embedding computed by a Sentence-BERT transformer and the release year. In order to evaluate the effective applicability of our method we test it in three tasks. Before doing this, we create two new version of the SpotGenTrack Popularity dataset, after having performed some cleaning operations: an English and a multi-lingual dataset. The first test conducted investigates the impact of using also text embeddings instead of using only audio embeddings for a classification problem. The other tests conducted aim to compare the performance of our solution with the state-of-the-art systems. Results evidence how the lyrics contribution has a key-role in HSP. Moreover, the overall results obtained are comparable with the ones achieved by the reference papers. This demonstrates that our proposed system is a valid solution for tackling HSP. In particular multi-lingual setup outperforms the English-only experiments, underlying the importance of having a significant amount of songs at disposal to model the complexity of HSP problem.

Grazie alle piattaforme web una grande quantità di nuove canzoni vengono rilasciate ogni giorno. Hit Song Prediction (HSP) è un campo di Music Information Retrieval che ha lo scopo di indagare se una canzone ha il potenziale per diventare popolare o meno, al fine di aiutare talent scout e produttori a fare una prima selezione automatica di canzoni che possono risultare accattivanti, in una prospettiva artistica o di mercato. Dopo aver studiato modelli e tecniche attualmente utilizzati in HSP, partendo dagli aspetti su cui esiste un margine di miglioramento, si descrivono le scelte che ci hanno portato a progettare il nostro modello. Con l’architettura proposta vogliamo impiegare, per la prima volta in HSP, un approccio multi-modale basato su embeddings audio e di testo. Il sistema proposto prende in input audio, testo e anno di uscita di una canzone per produrre come risultato il punteggio o la classe di popolarità a cui la canzone appartiene. Per fare questo, si utilizza un Multi-Layer Perceptron che riceve come feature di ingresso la concatenazione di tre dati: l’audio embedding estratto dal melspectrogram utilizzando una rete Resnet-50, l’embedding calcolato da un transformer Sentence-BERT a partire dai lyrics e l’anno di uscita. Prima di condurre gli esperimenti, due nuove versioni del dataset SpotGenTrack Popularity sono state create: una inglese e una multilingua. Per valutare l’effettiva applicabilità del nostro metodo nell’HSP lo sottoponiamo a tre test. Il primo esamina l’impatto dell’utilizzo degli embeddings testuali confrontandolo con l’utilizzo di soli embeddings audio, per svolgere un problema di classificazione. Gli altri invece mirano a confrontare le prestazioni della nostra soluzione con i sistemi dello stato dell’arte. I risultati ottenuti dimostrano che il contributo del testo ha un ruolo chiave in HSP. Inoltre, le performance complessive del nostro sistema risultano comparabili con quelle ottenute dai modelli di riferimento, portandoci ad affermare l’effettiva applicabilità del metodo proposto. In particolare, il dataset multilingua porta a risultati migliori rispetto al dataset inglese, sottolineando l’importanza di avere una quantità significativa di dati per modellare la complessità del problema di HSP.

Hit song prediction system based on audio and lyrics embeddings

CASTELLI, ELISA
2022/2023

Abstract

Nowadays, thanks to web platforms, a great amount of new songs are released every day. Hit Song Prediction (HSP) is a field of Music Information Retrieval that aims to investigate whether a song has the potential to become popular or not, in order to help talent scouts, labels and producers to make a first preliminary automatic selection of songs that can be appealing in an artistic or in a market perspective. After examining the current models and techniques employed in HSP, we explore the areas where there is room for improvement. Based on these insights, we outline the decisions that guided the development of our model. The system proposed has the novelty of employing, for the first time in this field, a multi-modal approach based on audio and lyrics embeddings. In detail, when provided with audio, lyrics, and the song’s release year, our model generates a popularity score or classifies the song accordingly. In order to do this it involves a Multi-Layer Perceptron that takes as input features the concatenation of three data: audio embedding extracted from the audio melspectrogram using a ResNet-50, lyrics embedding computed by a Sentence-BERT transformer and the release year. In order to evaluate the effective applicability of our method we test it in three tasks. Before doing this, we create two new version of the SpotGenTrack Popularity dataset, after having performed some cleaning operations: an English and a multi-lingual dataset. The first test conducted investigates the impact of using also text embeddings instead of using only audio embeddings for a classification problem. The other tests conducted aim to compare the performance of our solution with the state-of-the-art systems. Results evidence how the lyrics contribution has a key-role in HSP. Moreover, the overall results obtained are comparable with the ones achieved by the reference papers. This demonstrates that our proposed system is a valid solution for tackling HSP. In particular multi-lingual setup outperforms the English-only experiments, underlying the importance of having a significant amount of songs at disposal to model the complexity of HSP problem.
ING - Scuola di Ingegneria Industriale e dell'Informazione
4-ott-2023
2022/2023
Grazie alle piattaforme web una grande quantità di nuove canzoni vengono rilasciate ogni giorno. Hit Song Prediction (HSP) è un campo di Music Information Retrieval che ha lo scopo di indagare se una canzone ha il potenziale per diventare popolare o meno, al fine di aiutare talent scout e produttori a fare una prima selezione automatica di canzoni che possono risultare accattivanti, in una prospettiva artistica o di mercato. Dopo aver studiato modelli e tecniche attualmente utilizzati in HSP, partendo dagli aspetti su cui esiste un margine di miglioramento, si descrivono le scelte che ci hanno portato a progettare il nostro modello. Con l’architettura proposta vogliamo impiegare, per la prima volta in HSP, un approccio multi-modale basato su embeddings audio e di testo. Il sistema proposto prende in input audio, testo e anno di uscita di una canzone per produrre come risultato il punteggio o la classe di popolarità a cui la canzone appartiene. Per fare questo, si utilizza un Multi-Layer Perceptron che riceve come feature di ingresso la concatenazione di tre dati: l’audio embedding estratto dal melspectrogram utilizzando una rete Resnet-50, l’embedding calcolato da un transformer Sentence-BERT a partire dai lyrics e l’anno di uscita. Prima di condurre gli esperimenti, due nuove versioni del dataset SpotGenTrack Popularity sono state create: una inglese e una multilingua. Per valutare l’effettiva applicabilità del nostro metodo nell’HSP lo sottoponiamo a tre test. Il primo esamina l’impatto dell’utilizzo degli embeddings testuali confrontandolo con l’utilizzo di soli embeddings audio, per svolgere un problema di classificazione. Gli altri invece mirano a confrontare le prestazioni della nostra soluzione con i sistemi dello stato dell’arte. I risultati ottenuti dimostrano che il contributo del testo ha un ruolo chiave in HSP. Inoltre, le performance complessive del nostro sistema risultano comparabili con quelle ottenute dai modelli di riferimento, portandoci ad affermare l’effettiva applicabilità del metodo proposto. In particolare, il dataset multilingua porta a risultati migliori rispetto al dataset inglese, sottolineando l’importanza di avere una quantità significativa di dati per modellare la complessità del problema di HSP.
File allegati
File Dimensione Formato  
Elisa_Castelli_Executive_Summary.pdf

accessibile in internet per tutti

Descrizione: Executive Summary
Dimensione 865.64 kB
Formato Adobe PDF
865.64 kB Adobe PDF Visualizza/Apri
Elisa_Castelli_Thesis.pdf

accessibile in internet per tutti

Descrizione: Tesi
Dimensione 5.57 MB
Formato Adobe PDF
5.57 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/210808