In the modern digital world, in which society has become more aware of data value and the importance of exploiting it, new challenges must be faced. The classic ML paradigm requires organizations to collect data from different sources and perform the training on a centralized dataset. However, in a context in which privacy of users is essential and there is the need to analyze as much data as possible, data sharing becomes an issue. The most representative example of this scenario is the healthcare field: the accuracy of a ML model increases with the number of data samples used for the training, thus, the ideal scenario would require hospitals to share thei patients’ data in order to build a single huge dataset, containing all of the available instances. This represents a legal threat to patients’ privacy, whose sensitive data must not be revealed to agents different to the one they gave their consent to. To this goal, "Better" is a new project that aims at supporting the healthcare system in Europe: its core idea is to leverage AI and genomic data from patients in order to better study diseases, by providing the Federated Learning framework, a distributed system in which organizations represent the different sources. This thesis is a contribution to such project: it analyzes the performance trend when heterogeneity of clients increases. In particular, it focuses on the impact that Data Quality has on this distributed environment: different scenarios will be explored in order to demonstrate that, during the aggregation of parameters, the quality of datasets matters.
Nella nuova era digitale, in cui la società diventa sempre più consapevole del valore dei dati e dell’importanza del loro impiego, occorre affrontare nuove sfide. Il classico pattern del machine learning richiede alle organizzazioni di raccogliere i dati da diverse fonti, eseguendo il training dell’algoritmo su una base di dati centralizzata. Tuttavia, quando la privacy degli utenti è fondamentale e bisogna analizzare grandi quantità di dati, la condivisione dei dati tra i vari utenti diventa un problema. L’esempio più rappresentativo di questo scenario è il settore della sanità: l’affidabilità di un modello di Machine Learning aumenta con il numero di istanze usate per il training e, dunque, lo scenario ideale richiederebbe agli ospedali di condividere i dati dei loro pazienti con il fine di implementare un unico grande dataset contenente tutte le istanze disponibili. Tuttavia, questa rappresenta una minaccia legale alla privacy dei pazienti, i cui dati sensibili non devono essere rivelati con enti diversi da quelli a cui è stato dato il consenso. A tal proposito, "Better" è un nuovo progetto che si pone come obiettivo quello di supportare il sistema sanitario europeo: l’idea principale sta nello sfruttare l’intelligenza artificiale e i dati genomici dei pazienti per studiare al meglio le patologie, tramite l’implementazione del Federated Learning, un sistema distribuito in cui le organizzazioni sono le sorgenti dei dati. Questa tesi, dunque, contribuisce a questo progetto: analizza il comportamento della performance quando l’eterogeneità dei clients aumenta. In particolare, si concentra sull’impatto che la qualità dei dati ha in un sistema distribuito: vari scenari verranno esplorati con il fine di dimostrare che, durante l’aggregazione dei parametri, la qualità dei dati è rilevante.
Assessing the impact of data quality issues in federated learning systems
Palumbo, Francesco
2023/2024
Abstract
In the modern digital world, in which society has become more aware of data value and the importance of exploiting it, new challenges must be faced. The classic ML paradigm requires organizations to collect data from different sources and perform the training on a centralized dataset. However, in a context in which privacy of users is essential and there is the need to analyze as much data as possible, data sharing becomes an issue. The most representative example of this scenario is the healthcare field: the accuracy of a ML model increases with the number of data samples used for the training, thus, the ideal scenario would require hospitals to share thei patients’ data in order to build a single huge dataset, containing all of the available instances. This represents a legal threat to patients’ privacy, whose sensitive data must not be revealed to agents different to the one they gave their consent to. To this goal, "Better" is a new project that aims at supporting the healthcare system in Europe: its core idea is to leverage AI and genomic data from patients in order to better study diseases, by providing the Federated Learning framework, a distributed system in which organizations represent the different sources. This thesis is a contribution to such project: it analyzes the performance trend when heterogeneity of clients increases. In particular, it focuses on the impact that Data Quality has on this distributed environment: different scenarios will be explored in order to demonstrate that, during the aggregation of parameters, the quality of datasets matters.File | Dimensione | Formato | |
---|---|---|---|
2025_04_Palumbo_Executive_Summary.pdf
accessibile in internet solo dagli utenti autorizzati
Descrizione: Testo executive summary
Dimensione
1.05 MB
Formato
Adobe PDF
|
1.05 MB | Adobe PDF | Visualizza/Apri |
2025_04_Palumbo_Tesi.pdf
accessibile in internet solo dagli utenti autorizzati
Descrizione: Testo tesi
Dimensione
3.75 MB
Formato
Adobe PDF
|
3.75 MB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/235038