ING - Scuola di Ingegneria Industriale e dell'Informazione
3-apr-2025
2023/2024
Questo lavoro introduce Text-Conditioned Knowledge Recycling (TCKR), una nuova pipeline progettata per
generare dataset sintetici che portino sia ad un’alta accuratezza nei compiti di classificazione di immagini sia a
una protezione avanzata della privacy. Poiché le applicazioni di machine learning affrontano sfide crescenti legate
alla scarsità di dati, alle preoccupazioni sulla privacy e a potenziali bias nei dataset di addestramento, TCKR
offre una soluzione promettente sfruttando modelli di diffusione condizionati da testo per creare dataset sintetici
informativi. La pipeline integra Stable Diffusion 2.0 come generatore, Low-Rank Adaptation (LoRA) per un
adattamento efficiente del modello, la generazione dinamica di didascalie con BLIP-2 per catturare attributi
visivi specifici delle immagini, e Generative Knowledge Distillation (GKD) per migliorare l’informatività dei
campioni sintetici. Attraverso esperimenti completi su 12 diversi dataset, questa ricerca dimostra che i dataset
sintetici generati da TCKR possono portare a un’accuratezza di classificazione paragonabile – e in diversi
casi superiore – a quella ottenuta addestrando su dati reali. In particolare, i classificatori addestrati su dati
sintetici mostrano una resilienza sostanzialmente migliorata contro i Membership Inference Attacks (MIA), con
una riduzione media del successo dell’attacco (AUC_MIA) tra tutti i dataset di 4.97, mantenendo al contempo
prestazioni di classificazione comparabili. La metrica Accuracy Over Privacy (AOP) mostra miglioramenti
ancora più pronunciati, con un aumento medio di 8.79, evidenziando la capacità di TCKR di raggiungere un
equilibrio superiore tra utilità e privacy. La ricerca esplora inoltre la relazione tra la dimensione del dataset
sintetico e la prestazione nella classificazione a valle, riscontrando miglioramenti costanti con l’aumento della
cardinalità, sebbene con incrementi gradualmente decrescenti. Stabilendo che i modelli di diffusione condizionati
da testo possono generare dataset sintetici di alta qualità, i quali mantengono l’utilità per la classificazione
migliorando al contempo la privacy, questo lavoro fornisce una base per applicazioni di machine learning con
protezione della privacy in scenari con limitazioni sull’uso di dati reali.
This work introduces Text-Conditioned Knowledge Recycling (TCKR),
a novel pipeline designed to generate synthetic datasets that lead to both high
utility for image classification tasks and enhanced privacy protection. As machine
learning applications face increasing challenges related to data scarcity, privacy
concerns, and potential biases in training datasets, TCKR offers a promising solution
by leveraging text-conditioned diffusion models to create informative synthetic
data. The pipeline integrates Stable Diffusion 2.0 as the Generator, Low-
Rank Adaptation (LoRA) for efficient model adaptation, dynamic captioning with
BLIP-2 to capture instance-specific visual attributes, and Generative Knowledge
Distillation (GKD) to enhance the informativeness of synthetic samples. Through
comprehensive experiments across 12 diverse datasets, this research demonstrates
that synthetic datasets generated by TCKR can provide a Classification Accuracy
comparable to – and in several cases exceeding – that obtained by training on
real data. Notably, classifiers trained on synthetic data exhibit substantially enhanced
resilience against Membership Inference Attacks, with an average reduction
in attack success (AUC_MIA) of 4.97 across datasets, while maintaining comparable
classification performance. The Accuracy Over Privacy (AOP) metric shows
even more pronounced improvements, with an average increase of 8.79, highlighting
TCKR’s ability to achieve a superior trade-off between utility and privacy.
The research further explores the relationship between synthetic dataset size and
performance, finding consistent improvements with increased cardinality, though
with diminishing returns. By establishing that text-conditioned diffusion models
can generate high-quality synthetic datasets that maintain utility while enhancing
privacy, this work provides a foundation for privacy-preserving machine learning
in applications where real data use is constrained.