In recent years, artificial intelligence has radically transformed the way we analyze and generate audio content. From automatic music recommendation systems to generative models capable of composing original pieces, deep learning has become a cornerstone of modern audio processing. Yet, despite their impressive performance, these models remain largely opaque. Neural networks such as CNNs or transformers operate through high-dimensional latent spaces, producing embeddings that encode rich information but whose internal structure and semantic meaning are rarely understood. This thesis addresses the challenge of interpretability by investigating the latent embeddings generated by a pretrained audio model (VGGish) and comparing them to a set of hand-crafted, interpretable audio features. The aim is to uncover stable associations between individual embedding dimensions and specific audio descriptors—such as MFCCs, spectral shape features, pitch, rhythmic and dynamic complexity—in order to better understand the semantic structure of the latent space and the internal behavior of the model. Using statistical tools such as KL divergence ,cosine similarity ,Pearson and Spearman correlation, the work attempts to bridge the gap between black-box embeddings and human-interpretable musical properties, contributing to the growing field of Explainable AI (XAI) in the audio domain .

Negli ultimi anni, l’intelligenza artificiale ha trasformato radicalmente il modo in cui analizziamo e generiamo contenuti audio. Dai sistemi di raccomandazione musicale automatica ai modelli generativi capaci di comporre brani originali, il deep learning è diventato una pietra miliare dell’elaborazione audio moderna. Tuttavia, nonostante le loro prestazioni impressionanti, questi modelli rimangono in gran parte opachi. Le reti neurali, come le CNN o i transformer, operano attraverso spazi latenti ad alta dimensionalità, producendo embedding che codificano informazioni ricche ma la cui struttura interna e il significato semantico sono raramente compresi. Questa tesi affronta la sfida dell’interpretabilità analizzando gli embedding latenti generati da un modello audio preaddestrato (VGGish) e confrontandoli con un insieme di feature audio interpretabili e progettate manualmente. L’obiettivo è identificare associazioni stabili tra singole dimensioni degli embedding e specifici descrittori audio—come gli MFCC, le feature di forma spettrale, l’altezza tonale, la complessità ritmica e dinamica—per comprendere meglio la struttura semantica dello spazio latente e il comportamento interno del modello. Utilizzando strumenti statistici come la divergenza di Kullback-Leibler, la similarità coseno e la correlazione di Pearson e Spearman, questo lavoro cerca di colmare il divario tra embedding opachi e proprietà musicali interpretabili dall’uomo, contribuendo al crescente campo della Explainable AI (XAI) applicata all’audio.

Interpreting neural audio embeddings through structured feature analysis

PALMISANO, GIOVANNI
2024/2025

Abstract

In recent years, artificial intelligence has radically transformed the way we analyze and generate audio content. From automatic music recommendation systems to generative models capable of composing original pieces, deep learning has become a cornerstone of modern audio processing. Yet, despite their impressive performance, these models remain largely opaque. Neural networks such as CNNs or transformers operate through high-dimensional latent spaces, producing embeddings that encode rich information but whose internal structure and semantic meaning are rarely understood. This thesis addresses the challenge of interpretability by investigating the latent embeddings generated by a pretrained audio model (VGGish) and comparing them to a set of hand-crafted, interpretable audio features. The aim is to uncover stable associations between individual embedding dimensions and specific audio descriptors—such as MFCCs, spectral shape features, pitch, rhythmic and dynamic complexity—in order to better understand the semantic structure of the latent space and the internal behavior of the model. Using statistical tools such as KL divergence ,cosine similarity ,Pearson and Spearman correlation, the work attempts to bridge the gap between black-box embeddings and human-interpretable musical properties, contributing to the growing field of Explainable AI (XAI) in the audio domain .
ACCARDI, MARCO
ING - Scuola di Ingegneria Industriale e dell'Informazione
23-lug-2025
2024/2025
Negli ultimi anni, l’intelligenza artificiale ha trasformato radicalmente il modo in cui analizziamo e generiamo contenuti audio. Dai sistemi di raccomandazione musicale automatica ai modelli generativi capaci di comporre brani originali, il deep learning è diventato una pietra miliare dell’elaborazione audio moderna. Tuttavia, nonostante le loro prestazioni impressionanti, questi modelli rimangono in gran parte opachi. Le reti neurali, come le CNN o i transformer, operano attraverso spazi latenti ad alta dimensionalità, producendo embedding che codificano informazioni ricche ma la cui struttura interna e il significato semantico sono raramente compresi. Questa tesi affronta la sfida dell’interpretabilità analizzando gli embedding latenti generati da un modello audio preaddestrato (VGGish) e confrontandoli con un insieme di feature audio interpretabili e progettate manualmente. L’obiettivo è identificare associazioni stabili tra singole dimensioni degli embedding e specifici descrittori audio—come gli MFCC, le feature di forma spettrale, l’altezza tonale, la complessità ritmica e dinamica—per comprendere meglio la struttura semantica dello spazio latente e il comportamento interno del modello. Utilizzando strumenti statistici come la divergenza di Kullback-Leibler, la similarità coseno e la correlazione di Pearson e Spearman, questo lavoro cerca di colmare il divario tra embedding opachi e proprietà musicali interpretabili dall’uomo, contribuendo al crescente campo della Explainable AI (XAI) applicata all’audio.
File allegati
File Dimensione Formato  
2025_7_Palmisano_Thesis_01.pdf

accessibile in internet per tutti

Dimensione 30.25 MB
Formato Adobe PDF
30.25 MB Adobe PDF Visualizza/Apri
2025_7_Palmisano_Executive Summary_02.pdf

accessibile in internet per tutti

Dimensione 556.24 kB
Formato Adobe PDF
556.24 kB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/240843