As the music industry evolves in the digital age, artists' online presence has become increasingly significant, offering a rich source of multimodal data that can provide insights into their artistic identity beyond traditional audio-based metrics. This thesis presents an innovative approach to artist similarity analysis. It aims to demonstrate the connection between artists' Instagram content and their musical production by showing that artist similarities found on platforms like Spotify and AllMusic can be effectively derived from Instagram profiles. Our approach adopt a multimodal method that combines visual and textual data from artists' Instagram posts. We employ state-of-the-art deep learning techniques, including Vision Transformers for image analysis and BERT-based models for text processing, to extract feature vectors from both the images and captions of artists' posts. These feature vectors are then combined through an early fusion approach and fed into a Siamese Neural Network. By training the network with a triplet loss function and using cosine similarity as the metric, the model learns to distinguish between similar and dissimilar artists, mapping them into a 256-dimensional latent space where similarities can be more accurately measured and interpreted. We conducted experiments on a diverse dataset of 3,008 artists, utilizing similarity relations from both human-curated (AllMusic) and algorithmic (Spotify) sources as ground truth. To assess the effectiveness of our approach, we employed a range of evaluation metrics, including precision, recall and visual analysis through t-SNE plots. These evaluations demonstrate the efficacy and potentials of our proposed method. Our findings reveal that integrating visual and textual data from social media provides valuable insights into artist similarity, offering opportunities to innovate music recommendation systems and enhance artist discovery while bridging the gap between musical output and online presence.
Nell'era della rivoluzione digitale l’industria musicale sta evolvendo e la presenza online degli artisti sta a sua volta diventando sempre più significativa. Quest'ultima rappresenta un’abbondante risorsa di dati multimodali in grado di descrivere la loro identità artistica da un nuovo punto di vista differente rispetto alle tradizionali metriche basate sull'analisi audio della loro produzione musicale. Questa tesi analizza le similarità tra artisti introducendo un approccio innovativo in grado di mostrare che le similarità presenti su piattaforme come Spotify e AllMusic possono essere efficacemente derivate direttamente dai profili Instagram degli artisti. Tale risultato dimostra quindi che esiste una connessione tra i contenuti condivisi dagli artisti sui social e la loro produzione musicale. Il nostro approccio combina dati visuali e testuali dei post Instagram in maniera multimodale. Abbiamo utilizzato le tecniche di ricerca più avanzate nell'ambito del machine learning, fra cui i Vision Transformers per l’analisi dell’immagine e modelli basati su BERT per l’analisi dei testi, al fine di estrarre embeddings rappresentativi delle immagini e delle captions dei post Instagram. Tali embeddings sono poi stati combinati con un approccio 'early fusion', e dati in input ad una rete Siamese. Trainando tale rete con una triplet loss function e utilizzando la cosine similarity come misura di similarità, il modello ha imparato a distiguere coppie di artisti simili da coppie di artisti non simili, mappandoli in uno spazio latente 256-dimensionale dove le similarità possono essere efficacemente misurate e interpretate. Abbiamo condotto esperimenti su un variegato dataset di 3,008 artisti, usando come ground truth sia le similarità etichettate manualmente di AllMusic che quelle algoritmiche di Spotify. Al fine di mostrare l'efficacia e le potenzialità del nostro modello, abbiamo valutato le sue performance utilizzando diverse metriche, fra cui precision, recall e l'analisi visuale tramite t-SNE plots. I risultati ottenuti dimostrano che l'integrazione visuale e testuale dei dati condivisi sui social media risulti notevolmente efficace per la catalogazione degli artisti. Questo approccio offre nuove opportunità per innovare i sistemi di raccomandazione musicale e migliorare la scoperta degli artisti, colmando la distanza tra l'analisi della produzione musicale e quella della presenza online degli artisti.
Multimodal artist similarity: a siamese neural network approach using instagram content
Sansoni, Giacomo
2023/2024
Abstract
As the music industry evolves in the digital age, artists' online presence has become increasingly significant, offering a rich source of multimodal data that can provide insights into their artistic identity beyond traditional audio-based metrics. This thesis presents an innovative approach to artist similarity analysis. It aims to demonstrate the connection between artists' Instagram content and their musical production by showing that artist similarities found on platforms like Spotify and AllMusic can be effectively derived from Instagram profiles. Our approach adopt a multimodal method that combines visual and textual data from artists' Instagram posts. We employ state-of-the-art deep learning techniques, including Vision Transformers for image analysis and BERT-based models for text processing, to extract feature vectors from both the images and captions of artists' posts. These feature vectors are then combined through an early fusion approach and fed into a Siamese Neural Network. By training the network with a triplet loss function and using cosine similarity as the metric, the model learns to distinguish between similar and dissimilar artists, mapping them into a 256-dimensional latent space where similarities can be more accurately measured and interpreted. We conducted experiments on a diverse dataset of 3,008 artists, utilizing similarity relations from both human-curated (AllMusic) and algorithmic (Spotify) sources as ground truth. To assess the effectiveness of our approach, we employed a range of evaluation metrics, including precision, recall and visual analysis through t-SNE plots. These evaluations demonstrate the efficacy and potentials of our proposed method. Our findings reveal that integrating visual and textual data from social media provides valuable insights into artist similarity, offering opportunities to innovate music recommendation systems and enhance artist discovery while bridging the gap between musical output and online presence.File | Dimensione | Formato | |
---|---|---|---|
2024_10_Sansoni_Tesi.pdf
solo utenti autorizzati a partire dal 16/09/2027
Descrizione: Tesi
Dimensione
23.6 MB
Formato
Adobe PDF
|
23.6 MB | Adobe PDF | Visualizza/Apri |
2024_10_Sansoni_Executive Summary.pdf
solo utenti autorizzati a partire dal 16/09/2027
Descrizione: Executive Summary
Dimensione
3.53 MB
Formato
Adobe PDF
|
3.53 MB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/226777