The rapid growth of digital music catalogs has created a pressing need for more effective and intuitive music discovery systems. This thesis explores the potential of AI-driven audio analysis to enhance music search by moving beyond traditional metadata and lyrics analysis, incorporating a deeper understanding of the music itself. The study was struc- tured in three phases. The first phase benchmarked traditional Digital Signal Processing (DSP) algorithms, including Essentia, Librosa, and Tempogram-based methods, for ex- tracting low-level audio features like tempo, key, and mode. The results from this initial evaluation were not of sufficient quality for a real-world scenario, prompting the inclusion of a general-purpose Large Language Model (LLM), gpt-audio-mini, in the benchmark. However, this model performed worse than the DSP algorithms, reinforcing the need for morespecializedtools. Inthesecondphase, twospecializedaudioLLMs, Qwen-Audioand SonicVerse, were evaluated on their ability to extract low-level and high-level musical fea- tures, includinggenre, instruments, mood, andthematiccontext. Thisanalysisprovideda comprehensive comparison of the capabilities of these specialized models in understanding the semantic content of music. The third and final phase of the research investigates the practical application of this audio analysis in a music search context. A vector database, Chroma DB, was used to create and query two collections of music tracks: one based on lyrics analysis and another combining lyrics and audio analysis. The search relevance of these two collections was evaluated using queries based on synchronization (sync) briefs -short descriptions of a scene’s mood, thematic and music requirements used in the film and television industries to find fitting music. In addition, three different OpenAI embed- ding models were also compared in this phase. The findings of this thesis demonstrate that combining specialized audio analysis with lyrics analysis significantly improves the relevance of search results, leading to a much more intuitive and context-aware music search experience.

La rapida crescita dei cataloghi musicali digitali ha creato un’urgente necessità di sistemi di scoperta musicale più efficaci e intuitivi. Questa tesi esplora il potenziale dell’analisi audio basata sull’intelligenza artificiale per migliorare la ricerca musicale andando oltre i tradizionali metadati e l’analisi dei testi, incorporando una comprensione più profonda della musica stessa. Lo studio è strutturato in tre fasi principali. La prima fase confronta leprestazionideglialgoritmitradizionalidielaborazionedelsegnaledigitale(DSP),tracui metodi basati su Essentia, Librosa e Tempogram, per l’estrazione di caratteristiche audio di basso livello come tempo, tonalità e modo. I risultati di questa valutazione iniziale non erano sufficienti per l’utilizzo in un cotesto reale, portando alla inclusione di un LLM base, gpt-audio-mini, nel confronto. Tuttavia, questo modello ha ottenuto prestazioni inferiori rispetto agli algoritmi DSP, rafforzando la necessità di strumenti più specializzati. Nella seconda fase della ricerca, sono stati valutati due sistemi audio specializzati basati su LLM, Qwen-Audio e SonicVerse, per la loro capacità di estrarre caratteristiche musicali di basso e alto livello, tra cui genere, strumenti, mood e contesto tematico. Questa analisi ha fornito un confronto completo delle capacità di questi modelli specializzati nel com- prendere il contenuto semantico della musica. La terza e ultima fase indaga l’applicazione pratica di questa analisi audio in un contesto di ricerca musicale. È stato utilizzato un database vettoriale, Chroma DB, per creare e interrogare due raccolte di brani musicali: una contenente solo l’analisi dei testi e un’altra che combina l’analisi dei testi e l’analisi audio. La pertinenza della ricerca di queste due collezioni è stata valutata partendo da query basate su brief di sincronizzazione -brevi descrizioni del mood, dei requisiti tem- atici e musicali di una scena cinematografica o televisiva per trovare la musica adatta. In questa fase sono stati inoltre confrontati tre diversi modelli di embedding di OpenAI. I risultati di questa tesi dimostrano che la combinazione dell’analisi audio specializzata con l’analisi dei testi migliora significativamente la pertinenza dei risultati di ricerca, portando a un’esperienza di ricerca musicale molto più intuitiva e consapevole del contesto.

AI-driven audio analysis for music discovery: a comparative study of digital signal processing and Large Language Models

Mendez Hernandez, Juan Sebastian
2024/2025

Abstract

The rapid growth of digital music catalogs has created a pressing need for more effective and intuitive music discovery systems. This thesis explores the potential of AI-driven audio analysis to enhance music search by moving beyond traditional metadata and lyrics analysis, incorporating a deeper understanding of the music itself. The study was struc- tured in three phases. The first phase benchmarked traditional Digital Signal Processing (DSP) algorithms, including Essentia, Librosa, and Tempogram-based methods, for ex- tracting low-level audio features like tempo, key, and mode. The results from this initial evaluation were not of sufficient quality for a real-world scenario, prompting the inclusion of a general-purpose Large Language Model (LLM), gpt-audio-mini, in the benchmark. However, this model performed worse than the DSP algorithms, reinforcing the need for morespecializedtools. Inthesecondphase, twospecializedaudioLLMs, Qwen-Audioand SonicVerse, were evaluated on their ability to extract low-level and high-level musical fea- tures, includinggenre, instruments, mood, andthematiccontext. Thisanalysisprovideda comprehensive comparison of the capabilities of these specialized models in understanding the semantic content of music. The third and final phase of the research investigates the practical application of this audio analysis in a music search context. A vector database, Chroma DB, was used to create and query two collections of music tracks: one based on lyrics analysis and another combining lyrics and audio analysis. The search relevance of these two collections was evaluated using queries based on synchronization (sync) briefs -short descriptions of a scene’s mood, thematic and music requirements used in the film and television industries to find fitting music. In addition, three different OpenAI embed- ding models were also compared in this phase. The findings of this thesis demonstrate that combining specialized audio analysis with lyrics analysis significantly improves the relevance of search results, leading to a much more intuitive and context-aware music search experience.
TAVELLA, STELLA
ZAMBORLIN, BRUNO
ING - Scuola di Ingegneria Industriale e dell'Informazione
21-ott-2025
2024/2025
La rapida crescita dei cataloghi musicali digitali ha creato un’urgente necessità di sistemi di scoperta musicale più efficaci e intuitivi. Questa tesi esplora il potenziale dell’analisi audio basata sull’intelligenza artificiale per migliorare la ricerca musicale andando oltre i tradizionali metadati e l’analisi dei testi, incorporando una comprensione più profonda della musica stessa. Lo studio è strutturato in tre fasi principali. La prima fase confronta leprestazionideglialgoritmitradizionalidielaborazionedelsegnaledigitale(DSP),tracui metodi basati su Essentia, Librosa e Tempogram, per l’estrazione di caratteristiche audio di basso livello come tempo, tonalità e modo. I risultati di questa valutazione iniziale non erano sufficienti per l’utilizzo in un cotesto reale, portando alla inclusione di un LLM base, gpt-audio-mini, nel confronto. Tuttavia, questo modello ha ottenuto prestazioni inferiori rispetto agli algoritmi DSP, rafforzando la necessità di strumenti più specializzati. Nella seconda fase della ricerca, sono stati valutati due sistemi audio specializzati basati su LLM, Qwen-Audio e SonicVerse, per la loro capacità di estrarre caratteristiche musicali di basso e alto livello, tra cui genere, strumenti, mood e contesto tematico. Questa analisi ha fornito un confronto completo delle capacità di questi modelli specializzati nel com- prendere il contenuto semantico della musica. La terza e ultima fase indaga l’applicazione pratica di questa analisi audio in un contesto di ricerca musicale. È stato utilizzato un database vettoriale, Chroma DB, per creare e interrogare due raccolte di brani musicali: una contenente solo l’analisi dei testi e un’altra che combina l’analisi dei testi e l’analisi audio. La pertinenza della ricerca di queste due collezioni è stata valutata partendo da query basate su brief di sincronizzazione -brevi descrizioni del mood, dei requisiti tem- atici e musicali di una scena cinematografica o televisiva per trovare la musica adatta. In questa fase sono stati inoltre confrontati tre diversi modelli di embedding di OpenAI. I risultati di questa tesi dimostrano che la combinazione dell’analisi audio specializzata con l’analisi dei testi migliora significativamente la pertinenza dei risultati di ricerca, portando a un’esperienza di ricerca musicale molto più intuitiva e consapevole del contesto.
File allegati
File Dimensione Formato  
2025_10_Mendez.pdf

solo utenti autorizzati a partire dal 30/09/2026

Descrizione: Testo Tesi
Dimensione 2.35 MB
Formato Adobe PDF
2.35 MB Adobe PDF   Visualizza/Apri
2025_10_Mendez_Executive_Summary.pdf

solo utenti autorizzati a partire dal 30/09/2026

Descrizione: Executive Sumary
Dimensione 382.32 kB
Formato Adobe PDF
382.32 kB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/243948