Generative audio diffusion models have achieved state-of-the-art performance in producing high-fidelity audio, yet they suffer from a critical flaw: memorization. This phenomenon, where models replicate or produce near-replicas of their training data, undermines creative applications and poses significant legal and privacy risks, such as copyright infringement and the leakage of sensitive data. Existing mitigation strategies often require costly model retraining or data curation, making them impractical for large-scale systems. This thesis addresses the challenge of memorization by adapting and evaluating the Anti-Memorization Guidance (AMG) framework for the audio domain. AMG is a novel, inference-time intervention that operates by dynamically monitoring the similarity between a generation-in-progress and its nearest neighbour in the training set. When the similarity exceeds a dynamic threshold, a combination of three guidance strategies is applied to steer the generation away from the memorized content. This approach requires no modification to the pre-trained model or its dataset. We implemented this framework on the open-source Stable Audio Open model and conducted a comprehensive evaluation. A quantitative ablation study confirmed that the full AMG framework significantly reduces similarity to training data. Visual analysis via spectrograms and t-SNE plots verified these findings, showing that AMG guides the generation process to novel regions of the embedding space. Furthermore, our evaluation of audio quality using multiple metrics, revealed that by preventing the low-diversity output characteristic of memorization, AMG can actually improve the statistical quality of the generated audio distribution. While a trade-off with prompt adherence was observed, the results indicate that the framework can be tuned to effectively balance the dual objectives of novelty and relevance, confirming its viability as a practical solution for deploying more responsible and legally sound generative audio models.
I modelli generativi audio a diffusione hanno raggiunto prestazioni allo stato dell'arte nella produzione di audio ad alta fedeltà, tuttavia soffrono di un difetto critico: la memorizzazione. Questo fenomeno, in cui i modelli replicano o producono quasi-repliche dei loro dati di addestramento, compromette le applicazioni creative e pone significativi rischi legali e di privacy, come la violazione del copyright e la fuga di dati sensibili. Le strategie di mitigazione esistenti richiedono spesso un costoso riaddestramento del modello o una curatela dei dati, rendendole impraticabili per sistemi su larga scala. Questa tesi affronta la sfida della memorizzazione adattando e valutando il framework Anti-Memorization Guidance (AMG) per il dominio audio. AMG è un nuovo intervento in fase di inferenza che opera monitorando dinamicamente la somiglianza tra una generazione in corso e il suo vicino più prossimo nel set di addestramento. Quando la somiglianza supera una soglia dinamica, una combinazione di tre strategie di guida viene applicata per deviare la generazione lontano dal contenuto memorizzato. Questo approccio non richiede alcuna modifica al modello pre-addestrato o al suo dataset. Questo framework è stato implementato sul modello open-source Stable Audio Open e condotto una valutazione completa. Uno studio di ablazione quantitativo ha confermato che il framework AMG completo riduce significativamente la somiglianza con i dati di addestramento. L'analisi visiva tramite spettrogrammi e plot t-SNE ha confermato questi risultati, mostrando che AMG guida il processo di generazione verso nuove regioni dello spazio degli embedding. Inoltre, la valutazione della qualità audio tramite diverse metriche ha rivelato che, prevenendo l'output a bassa diversità caratteristico della memorizzazione, AMG può di fatto migliorare la qualità statistica della distribuzione audio generata. Sebbene sia stato osservato un compromesso con l'aderenza al prompt, i risultati indicano che il framework può essere regolato per bilanciare efficacemente i duplici obiettivi di novità e pertinenza, confermando la sua validità come soluzione pratica per l'implementazione di modelli audio generativi più responsabili.
Towards memorization free audio diffusion models
MESSINA, FRANCISCO
2024/2025
Abstract
Generative audio diffusion models have achieved state-of-the-art performance in producing high-fidelity audio, yet they suffer from a critical flaw: memorization. This phenomenon, where models replicate or produce near-replicas of their training data, undermines creative applications and poses significant legal and privacy risks, such as copyright infringement and the leakage of sensitive data. Existing mitigation strategies often require costly model retraining or data curation, making them impractical for large-scale systems. This thesis addresses the challenge of memorization by adapting and evaluating the Anti-Memorization Guidance (AMG) framework for the audio domain. AMG is a novel, inference-time intervention that operates by dynamically monitoring the similarity between a generation-in-progress and its nearest neighbour in the training set. When the similarity exceeds a dynamic threshold, a combination of three guidance strategies is applied to steer the generation away from the memorized content. This approach requires no modification to the pre-trained model or its dataset. We implemented this framework on the open-source Stable Audio Open model and conducted a comprehensive evaluation. A quantitative ablation study confirmed that the full AMG framework significantly reduces similarity to training data. Visual analysis via spectrograms and t-SNE plots verified these findings, showing that AMG guides the generation process to novel regions of the embedding space. Furthermore, our evaluation of audio quality using multiple metrics, revealed that by preventing the low-diversity output characteristic of memorization, AMG can actually improve the statistical quality of the generated audio distribution. While a trade-off with prompt adherence was observed, the results indicate that the framework can be tuned to effectively balance the dual objectives of novelty and relevance, confirming its viability as a practical solution for deploying more responsible and legally sound generative audio models.| File | Dimensione | Formato | |
|---|---|---|---|
|
Tesi di Francisco Messina.pdf
accessibile in internet per tutti a partire dal 23/09/2026
Descrizione: Tesi formato articolo
Dimensione
3.75 MB
Formato
Adobe PDF
|
3.75 MB | Adobe PDF | Visualizza/Apri |
|
Executive Summary di Francisco Messina.pdf
accessibile in internet per tutti a partire dal 23/09/2026
Descrizione: Executive summary
Dimensione
1.86 MB
Formato
Adobe PDF
|
1.86 MB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/243679