In the current context, the adoption of increasingly restrictive laws for privacy reasons significantly limits the use and distribution of real datasets containing potentially sensitive data, thus hindering collaboration and research in crucial sectors such as medicine and healthcare. Recent innovations in the field of artificial intelligence have made it possible to use generative models that, by simulating the distribution of original data, can create synthetic datasets that can be used without restrictions. However, generative models often fail to capture the specificities and peculiarities of datasets necessary to ensure adequate performance in downstream tasks. In this work, focusing particularly on the domain of survival analysis, we propose an innovative pipeline for the generation of artificial data that explicitly considers the downstream task, allowing a quantitative analysis of the fidelity of the generated synthetic samples. This approach makes it possible to identify and remove the synthetic samples that are least representative of the original distribution, thus improving the performance resulting from the use of the synthetic dataset in practical applications. Our method is completely independent of the generative model used, making it compatible with a wide range of tabular generation techniques. The experimental results obtained through the application of our method not only demonstrate the competitiveness of our approach compared to the simple use of tabular generators but also highlight its ability to achieve equivalent, and sometimes superior, performance compared to that obtainable with real datasets. These results suggest that the use of synthetic datasets, obtained with our pipeline, can represent a valid alternative for research and analysis in contexts where access to real data is limited or impossible.

Nel contesto attuale, l'adozione di leggi sempre più restrittive per motivi di privacy limita significativamente l'uso e la distribuzione di dataset reali contenenti dati potenzialmente sensibili, ostacolando così la collaborazione e la ricerca in settori cruciali come quello medico e sanitario. Recenti innovazioni nel campo dell'intelligenza artificiale hanno reso possibile l'uso di modelli generativi, i quali, simulando la distribuzione dei dati originali, possono creare dataset sintetici utilizzabili senza restrizioni. Tuttavia, i modelli generativi spesso non riescono a catturare le specificità e le peculiarità dei dataset necessarie per garantire prestazioni adeguate nelle task a valle. In questo lavoro, concentrandoci in particolare sul dominio della survival analysis, proponiamo una pipeline innovativa per la generazione di dati artificiali che considera esplicitamente la task a valle, consentendo un'analisi quantitativa della fedeltà dei campioni sintetici generati. Questo approccio permette di identificare e rimuovere i campioni sintetici meno rappresentativi della distribuzione originale, migliorando così le prestazioni derivanti dall'uso del dataset sintetico in applicazioni pratiche. Il nostro metodo è completamente indipendente dal modello generativo utilizzato, rendendolo compatibile con una vasta gamma di tecniche di generazione tabellare. I risultati sperimentali ottenuti attraverso l'applicazione del nostro metodo dimostrano non solo la competitività del nostro approccio rispetto al semplice uso di generatori tabellari, ma ne evidenziano anche la capacità di raggiungere prestazioni equivalenti, e talvolta superiori, rispetto a quelle ottenibili con dataset reali. Questi risultati suggeriscono che l'uso di dataset sintetici, generati con la nostra pipeline, può rappresentare una valida alternativa per la ricerca e l'analisi in contesti in cui l'accesso a dati reali è limitato o impossibile.

A generative pipeline for high-quality synthetic survival datasets

RIZZI, NICCOLÒ MARIA
2023/2024

Abstract

In the current context, the adoption of increasingly restrictive laws for privacy reasons significantly limits the use and distribution of real datasets containing potentially sensitive data, thus hindering collaboration and research in crucial sectors such as medicine and healthcare. Recent innovations in the field of artificial intelligence have made it possible to use generative models that, by simulating the distribution of original data, can create synthetic datasets that can be used without restrictions. However, generative models often fail to capture the specificities and peculiarities of datasets necessary to ensure adequate performance in downstream tasks. In this work, focusing particularly on the domain of survival analysis, we propose an innovative pipeline for the generation of artificial data that explicitly considers the downstream task, allowing a quantitative analysis of the fidelity of the generated synthetic samples. This approach makes it possible to identify and remove the synthetic samples that are least representative of the original distribution, thus improving the performance resulting from the use of the synthetic dataset in practical applications. Our method is completely independent of the generative model used, making it compatible with a wide range of tabular generation techniques. The experimental results obtained through the application of our method not only demonstrate the competitiveness of our approach compared to the simple use of tabular generators but also highlight its ability to achieve equivalent, and sometimes superior, performance compared to that obtainable with real datasets. These results suggest that the use of synthetic datasets, obtained with our pipeline, can represent a valid alternative for research and analysis in contexts where access to real data is limited or impossible.
ARCHETTI, ALBERTO
LOMURNO, EUGENIO
ING - Scuola di Ingegneria Industriale e dell'Informazione
3-apr-2025
2023/2024
Nel contesto attuale, l'adozione di leggi sempre più restrittive per motivi di privacy limita significativamente l'uso e la distribuzione di dataset reali contenenti dati potenzialmente sensibili, ostacolando così la collaborazione e la ricerca in settori cruciali come quello medico e sanitario. Recenti innovazioni nel campo dell'intelligenza artificiale hanno reso possibile l'uso di modelli generativi, i quali, simulando la distribuzione dei dati originali, possono creare dataset sintetici utilizzabili senza restrizioni. Tuttavia, i modelli generativi spesso non riescono a catturare le specificità e le peculiarità dei dataset necessarie per garantire prestazioni adeguate nelle task a valle. In questo lavoro, concentrandoci in particolare sul dominio della survival analysis, proponiamo una pipeline innovativa per la generazione di dati artificiali che considera esplicitamente la task a valle, consentendo un'analisi quantitativa della fedeltà dei campioni sintetici generati. Questo approccio permette di identificare e rimuovere i campioni sintetici meno rappresentativi della distribuzione originale, migliorando così le prestazioni derivanti dall'uso del dataset sintetico in applicazioni pratiche. Il nostro metodo è completamente indipendente dal modello generativo utilizzato, rendendolo compatibile con una vasta gamma di tecniche di generazione tabellare. I risultati sperimentali ottenuti attraverso l'applicazione del nostro metodo dimostrano non solo la competitività del nostro approccio rispetto al semplice uso di generatori tabellari, ma ne evidenziano anche la capacità di raggiungere prestazioni equivalenti, e talvolta superiori, rispetto a quelle ottenibili con dataset reali. Questi risultati suggeriscono che l'uso di dataset sintetici, generati con la nostra pipeline, può rappresentare una valida alternativa per la ricerca e l'analisi in contesti in cui l'accesso a dati reali è limitato o impossibile.
File allegati
File Dimensione Formato  
2025_04_Rizzi_Tesi.pdf

accessibile in internet per tutti a partire dal 12/03/2026

Descrizione: Testo della tesi
Dimensione 1.19 MB
Formato Adobe PDF
1.19 MB Adobe PDF   Visualizza/Apri
2025_04_Rizzi_Executive_Summary.pdf

non accessibile

Descrizione: Executive summary
Dimensione 631.74 kB
Formato Adobe PDF
631.74 kB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/235504