This work introduces Text-Conditioned Knowledge Recycling (TCKR), a novel pipeline designed to generate synthetic datasets that lead to both high utility for image classification tasks and enhanced privacy protection. As machine learning applications face increasing challenges related to data scarcity, privacy concerns, and potential biases in training datasets, TCKR offers a promising solution by leveraging text-conditioned diffusion models to create informative synthetic data. The pipeline integrates Stable Diffusion 2.0 as the Generator, Low- Rank Adaptation (LoRA) for efficient model adaptation, dynamic captioning with BLIP-2 to capture instance-specific visual attributes, and Generative Knowledge Distillation (GKD) to enhance the informativeness of synthetic samples. Through comprehensive experiments across 12 diverse datasets, this research demonstrates that synthetic datasets generated by TCKR can provide a Classification Accuracy comparable to – and in several cases exceeding – that obtained by training on real data. Notably, classifiers trained on synthetic data exhibit substantially enhanced resilience against Membership Inference Attacks, with an average reduction in attack success (AUC_MIA) of 4.97 across datasets, while maintaining comparable classification performance. The Accuracy Over Privacy (AOP) metric shows even more pronounced improvements, with an average increase of 8.79, highlighting TCKR’s ability to achieve a superior trade-off between utility and privacy. The research further explores the relationship between synthetic dataset size and performance, finding consistent improvements with increased cardinality, though with diminishing returns. By establishing that text-conditioned diffusion models can generate high-quality synthetic datasets that maintain utility while enhancing privacy, this work provides a foundation for privacy-preserving machine learning in applications where real data use is constrained.

Questo lavoro introduce Text-Conditioned Knowledge Recycling (TCKR), una nuova pipeline progettata per generare dataset sintetici che portino sia ad un’alta accuratezza nei compiti di classificazione di immagini sia a una protezione avanzata della privacy. Poiché le applicazioni di machine learning affrontano sfide crescenti legate alla scarsità di dati, alle preoccupazioni sulla privacy e a potenziali bias nei dataset di addestramento, TCKR offre una soluzione promettente sfruttando modelli di diffusione condizionati da testo per creare dataset sintetici informativi. La pipeline integra Stable Diffusion 2.0 come generatore, Low-Rank Adaptation (LoRA) per un adattamento efficiente del modello, la generazione dinamica di didascalie con BLIP-2 per catturare attributi visivi specifici delle immagini, e Generative Knowledge Distillation (GKD) per migliorare l’informatività dei campioni sintetici. Attraverso esperimenti completi su 12 diversi dataset, questa ricerca dimostra che i dataset sintetici generati da TCKR possono portare a un’accuratezza di classificazione paragonabile – e in diversi casi superiore – a quella ottenuta addestrando su dati reali. In particolare, i classificatori addestrati su dati sintetici mostrano una resilienza sostanzialmente migliorata contro i Membership Inference Attacks (MIA), con una riduzione media del successo dell’attacco (AUC_MIA) tra tutti i dataset di 4.97, mantenendo al contempo prestazioni di classificazione comparabili. La metrica Accuracy Over Privacy (AOP) mostra miglioramenti ancora più pronunciati, con un aumento medio di 8.79, evidenziando la capacità di TCKR di raggiungere un equilibrio superiore tra utilità e privacy. La ricerca esplora inoltre la relazione tra la dimensione del dataset sintetico e la prestazione nella classificazione a valle, riscontrando miglioramenti costanti con l’aumento della cardinalità, sebbene con incrementi gradualmente decrescenti. Stabilendo che i modelli di diffusione condizionati da testo possono generare dataset sintetici di alta qualità, i quali mantengono l’utilità per la classificazione migliorando al contempo la privacy, questo lavoro fornisce una base per applicazioni di machine learning con protezione della privacy in scenari con limitazioni sull’uso di dati reali.

Text-conditioned knowledge recycling: a synthetic dataset generation pipeline for high-performing and privacy-preserving image classifiers

Resmini, Nicolò Francesco
2023/2024

Abstract

This work introduces Text-Conditioned Knowledge Recycling (TCKR), a novel pipeline designed to generate synthetic datasets that lead to both high utility for image classification tasks and enhanced privacy protection. As machine learning applications face increasing challenges related to data scarcity, privacy concerns, and potential biases in training datasets, TCKR offers a promising solution by leveraging text-conditioned diffusion models to create informative synthetic data. The pipeline integrates Stable Diffusion 2.0 as the Generator, Low- Rank Adaptation (LoRA) for efficient model adaptation, dynamic captioning with BLIP-2 to capture instance-specific visual attributes, and Generative Knowledge Distillation (GKD) to enhance the informativeness of synthetic samples. Through comprehensive experiments across 12 diverse datasets, this research demonstrates that synthetic datasets generated by TCKR can provide a Classification Accuracy comparable to – and in several cases exceeding – that obtained by training on real data. Notably, classifiers trained on synthetic data exhibit substantially enhanced resilience against Membership Inference Attacks, with an average reduction in attack success (AUC_MIA) of 4.97 across datasets, while maintaining comparable classification performance. The Accuracy Over Privacy (AOP) metric shows even more pronounced improvements, with an average increase of 8.79, highlighting TCKR’s ability to achieve a superior trade-off between utility and privacy. The research further explores the relationship between synthetic dataset size and performance, finding consistent improvements with increased cardinality, though with diminishing returns. By establishing that text-conditioned diffusion models can generate high-quality synthetic datasets that maintain utility while enhancing privacy, this work provides a foundation for privacy-preserving machine learning in applications where real data use is constrained.
LOMURNO, EUGENIO
SBROLLI, CRISTIAN
ING - Scuola di Ingegneria Industriale e dell'Informazione
3-apr-2025
2023/2024
Questo lavoro introduce Text-Conditioned Knowledge Recycling (TCKR), una nuova pipeline progettata per generare dataset sintetici che portino sia ad un’alta accuratezza nei compiti di classificazione di immagini sia a una protezione avanzata della privacy. Poiché le applicazioni di machine learning affrontano sfide crescenti legate alla scarsità di dati, alle preoccupazioni sulla privacy e a potenziali bias nei dataset di addestramento, TCKR offre una soluzione promettente sfruttando modelli di diffusione condizionati da testo per creare dataset sintetici informativi. La pipeline integra Stable Diffusion 2.0 come generatore, Low-Rank Adaptation (LoRA) per un adattamento efficiente del modello, la generazione dinamica di didascalie con BLIP-2 per catturare attributi visivi specifici delle immagini, e Generative Knowledge Distillation (GKD) per migliorare l’informatività dei campioni sintetici. Attraverso esperimenti completi su 12 diversi dataset, questa ricerca dimostra che i dataset sintetici generati da TCKR possono portare a un’accuratezza di classificazione paragonabile – e in diversi casi superiore – a quella ottenuta addestrando su dati reali. In particolare, i classificatori addestrati su dati sintetici mostrano una resilienza sostanzialmente migliorata contro i Membership Inference Attacks (MIA), con una riduzione media del successo dell’attacco (AUC_MIA) tra tutti i dataset di 4.97, mantenendo al contempo prestazioni di classificazione comparabili. La metrica Accuracy Over Privacy (AOP) mostra miglioramenti ancora più pronunciati, con un aumento medio di 8.79, evidenziando la capacità di TCKR di raggiungere un equilibrio superiore tra utilità e privacy. La ricerca esplora inoltre la relazione tra la dimensione del dataset sintetico e la prestazione nella classificazione a valle, riscontrando miglioramenti costanti con l’aumento della cardinalità, sebbene con incrementi gradualmente decrescenti. Stabilendo che i modelli di diffusione condizionati da testo possono generare dataset sintetici di alta qualità, i quali mantengono l’utilità per la classificazione migliorando al contempo la privacy, questo lavoro fornisce una base per applicazioni di machine learning con protezione della privacy in scenari con limitazioni sull’uso di dati reali.
File allegati
File Dimensione Formato  
2025_04_Resmini_Tesi.pdf

accessibile in internet per tutti

Descrizione: Thesis
Dimensione 35.31 MB
Formato Adobe PDF
35.31 MB Adobe PDF Visualizza/Apri
2025_04_Resmini_Executive Summary.pdf

accessibile in internet per tutti

Descrizione: Executive Summary
Dimensione 15.44 MB
Formato Adobe PDF
15.44 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/234657