A multimodal approach to artist similarity assessment using audio and social media content

At a time when the music industry is increasingly influenced by the artists' online presence, this thesis proposes an innovative approach for analyzing artist similarity by combining multimodal data, derived from song audio as well as images and captions posted on Instagram. Audio embeddings were extracted using advanced deep learning models, such as Google's VGGish model, applied to pre-processed music tracks in the form of log-mel spectrograms. For social media content analysis, OpenAI's CLIP model was used for images and the SBERT model for post caption texts. The focus of the research is a Siamese neural network trained with triplet loss and cosine distance. After fusing the collected multimodal data into a unified representation, this was processed by a Siamese 1D CNN network to compute a similarity measure. The network is able to map artists in a latent space of 256 dimensions. Artists with similar characteristics are placed close together, exploiting as ground truth both human annotated similarities, extracted from the AllMusic platform, and algorithmic similarities extracted from Spotify via its APIs, to create as large and as complete a dataset as possible. Experiments conducted on a sample of 3,008 artists on Instagram demonstrated the effectiveness of the multimodal model. The performance of the model was evaluated through metrics such as precision (or validity), recall, and t-SNE visualizations, showing that the integration of visual and textual data with audio data provides an important aid for classifying artists, compared to traditional audio-based methods. The results indicate that a multimodal approach offers greater accuracy and greater separation between non-similar artists, suggesting potential improvement in music recommendation systems and new artist discovery, while bridging the gap between music production and online presence.

In un'epoca in cui l'industria musicale è sempre più influenzata dalla presenza online degli artisti, questa tesi propone un approccio innovativo per l'analisi della similarità tra artisti, combinando dati multimodali derivati dall'audio delle canzoni e dalle immagini e dai testi pubblicati su Instagram. Gli embeddings audio sono stati estratti utilizzando modelli di deep learning avanzati, come il modello VGGish di Google, applicato a tracce musicali pre-processate sotto forma di log-mel spettrogrammi. Per l'analisi dei contenuti social media, sono stati utilizzati il modello CLIP di OpenAI per le immagini e il modello SBERT per i testi delle didascalie dei post. Il fulcro della ricerca è una rete neurale siamese addestrata con triplet loss e cosine distance. Dopo aver fuso i dati multimodali raccolti in una rappresentazione unificata, questi sono stati elaborati da una rete siamese 1D CNN per calcolare una misura di similarità. La rete è in grado di mappare gli artisti in uno spazio latente di 256 dimensioni, collocando vicini gli artisti con caratteristiche simili, sfruttando sia le somiglianze identificate manualmente da esperti nel settore, estratte dalla piattaforma AllMusic, sia quelle algoritmiche estratte da Spotify, tramite le loro API, per la creazione di un dataset ampio e il più completo possibile. Gli esperimenti condotti su un campione di 3.008 artisti presenti su Instagram hanno dimostrato l'efficacia del modello multimodale. Le prestazioni del modello sono state valutate attraverso metriche come precision (o validità), recall e visualizzazioni t-SNE, mostrando che l'integrazione di dati visivi e testuali con i dati audio fornisce un contributo significativo alla catalogazione degli artisti rispetto ai metodi tradizionali basati solo sull'audio. I risultati indicano che un approccio multimodale offre maggiore accuratezza e una separazione più netta tra artisti non simili, suggerendo un potenziale miglioramento nei sistemi di raccomandazione musicale e nella scoperta di nuovi artisti, e colmando il divario tra produzione musicale e presenza online.