Machine Learning and Deep Learning tools in Medical Imaging are promising approaches to aid physicians and radiologists in performing diagnoses. Machine Learning models that work with imaging data require massive amounts of data. Although many institutes are collaborating to produce publicly available datasets of medical images, the process of data acquisition is severely limited by different challenges. These challenges are mainly related to privacy regulations and the effort of domain experts to assess imaging data quality and produce high-quality ground truth. In turn, the difficulty of managing large datasets of medical imaging translates in a scarcity of data available for research. This Ph.D. thesis studies collaborative machine learning as a methodological approach to overcome the problem of data availability. Collaborative Machine Learning is a vast area of research that includes a set of techniques, such as Distributed Learning and Esembling Methods, to enable multi-centric studies using multiple private datasets. The main idea behind collaborative machine learning is to share knowledge instead of data to overcome potential privacy issues in exchanging sensitive data. However, this approach poses challenges that include data heterogeneity due to the population included in the datasets, and data incompleteness, due to different data acquisition standards and practices among different institutions. This work provides a general taxonomy for classifying the various approaches proposed in the literature. We analyze well-established techniques such as ensemble learning and transfer learning in the context of collaborative machine learning. Moreover, we analyze more recent contributions based on distributed learning, comparing their performances according to data heterogeneity and privacy constraints. Our experiments study multiple approaches that exploit ensemble methods, distributed learning, and transfer learning to overcome different challenges, such as data heterogeneity, model heterogeneity, and label heterogeneity using public and private datasets. Finally, we propose our approach to image segmentation based on adversarial networks and generative adversarial networks to study possible approaches to the problem of incomplete medical imaging datasets. The results are promising, showing that collaborative learning can successfully overcome the issues above. In particular, ensemble learning methods can build a single model from multiple models with different architectures when trained on different data subsets. Moreover, distributed learning approaches proved to be a good design choice when privacy has to be attained, especially in a context of data heterogeneity. Transfer learning and embedding techniques can enable the training of custom models on smaller private datasets by exploiting the powerful feature extraction modules of Convolutional Neural Networks. Lastly, our approach based on adversarial networks proved to be promising to enable the use of multi-input segmentation models when some of them are missing, thanks to image translation.

L'apprendimento automatico e l'apprendimento profondo per l'imaging medico sono strumenti promettenti per supportare dottori e radiologi nel processo di diagnosi. Tuttavia, i modelli di apprendimento automatico per immagini richiedono enormi quantità di dati. Nonostante molti istituti stiano collaborando per produrre basi di dati pubbliche per immagini mediche, il processo di acquisizione dei dati è severamente limitato da alcune sfide. Queste sfide sono relative alle regolamentazioni sulla privacy e alla quantità di impegno richiesto agli esperti del dominio per valutare e produrre dati di qualità elevata. Inoltre, le difficoltà di gestione di grandi basi di dati di immagini mediche si traduce in una scarsità di dati disponibili per la ricerca. Questa tesi di dottorato studia l'apprendimento automatico collaborativo come un approccio metodologico atto ad affrontare il problema della disponibilità di dati. L'Apprendimento Automatico Collaborativo è un'area di ricerca che include diverse tecniche, come l'Apprendimento Distribuito e i metodi di Apprendimento Ensemble, che permettono l'uso di più basi di dati private all'interno di studi multicentrici. L'idea principale dietro l'apprendimento automatico collaborativo è affrontare la questione della riservatezza dei dati sensibili condividendo la conoscenza appresa anziché i dati. Tuttavia, questo approccio pone delle sfide aggiuntive che includono la gestione dell'eterogeneità dei dati, dovuta alle diverse popolazioni rappresentate nelle basi di dati locali, e l'incompletezza dei dati, dovuta a diversi standard di acquisizione tra i diversi istituti. Questa tesi fornisce innanzitutto una tassonomia generale utile a classificare i diversi approcci presenti in letteratura. Analizziamo inoltre alcune tecniche ben affermate come l'apprendimento ensemble e il transfer learning, nel contesto dell'apprendimento automatico collaborativo. Analizzado i più recenti contributi basati sull'apprendimento distribuito, proponiamo un'analisi comparativa delle performances rispetto all'eterogeneità dei dati ed ai vincoli di riservatezza. I nostri esperimenti studiano diversi approcci che sfruttano metodi ensemble, apprendimento distribuito e transfer learning per affrontare diverse sfide, quali l'eterogeneità dei modelli e delle etichette, utilizzando basi di dati pubbliche e private. Infine, proponiamo il nostro approccio per la segmentazione di immagini basata sulle reti avversarie e reti avversarie generative per studiare possibili approcci al problema della presenza di dati incompleti nelle basi di dati di immagini mediche. I risultati sono promettenti e mostrano che l'apprendimento collaborativo può superare le sfide descritte. In particolare, i metodi ensemble permettono di costruire un singolo modello a partire da più modelli con diverse architetture, quando questi sono stati addestrati utilizzando sottoinsiemi diversi di dati. Inoltre, l'apprendimento distribuito si è dimostrato di essere una buona scelta nei contesti in cui la riservatezza dei dati è essenziale, specialmente quando sono presenti dati eterogenei. Il transfer learning e i metodi embedding permettono l'addrstramento di modelli personalizzati anche su basi di dati di dimensione limitata, sfruttando i moduli per l'estrazione di caratteristiche delle reti neurali convolutive. Infine, il nostro approccio basato sulle reti avversarie si è dimostrato essere utile nel permettere l'utilizzo di modelli di segmentazione a più ingressi, anche quando i dati relativi ad alcuni di questi sono mancanti, sfruttando la traduzione automatica di immagini.

Addressing collaborative machine learning challenges in medical imaging

GIACOMELLO, EDOARDO
2021/2022

Abstract

Machine Learning and Deep Learning tools in Medical Imaging are promising approaches to aid physicians and radiologists in performing diagnoses. Machine Learning models that work with imaging data require massive amounts of data. Although many institutes are collaborating to produce publicly available datasets of medical images, the process of data acquisition is severely limited by different challenges. These challenges are mainly related to privacy regulations and the effort of domain experts to assess imaging data quality and produce high-quality ground truth. In turn, the difficulty of managing large datasets of medical imaging translates in a scarcity of data available for research. This Ph.D. thesis studies collaborative machine learning as a methodological approach to overcome the problem of data availability. Collaborative Machine Learning is a vast area of research that includes a set of techniques, such as Distributed Learning and Esembling Methods, to enable multi-centric studies using multiple private datasets. The main idea behind collaborative machine learning is to share knowledge instead of data to overcome potential privacy issues in exchanging sensitive data. However, this approach poses challenges that include data heterogeneity due to the population included in the datasets, and data incompleteness, due to different data acquisition standards and practices among different institutions. This work provides a general taxonomy for classifying the various approaches proposed in the literature. We analyze well-established techniques such as ensemble learning and transfer learning in the context of collaborative machine learning. Moreover, we analyze more recent contributions based on distributed learning, comparing their performances according to data heterogeneity and privacy constraints. Our experiments study multiple approaches that exploit ensemble methods, distributed learning, and transfer learning to overcome different challenges, such as data heterogeneity, model heterogeneity, and label heterogeneity using public and private datasets. Finally, we propose our approach to image segmentation based on adversarial networks and generative adversarial networks to study possible approaches to the problem of incomplete medical imaging datasets. The results are promising, showing that collaborative learning can successfully overcome the issues above. In particular, ensemble learning methods can build a single model from multiple models with different architectures when trained on different data subsets. Moreover, distributed learning approaches proved to be a good design choice when privacy has to be attained, especially in a context of data heterogeneity. Transfer learning and embedding techniques can enable the training of custom models on smaller private datasets by exploiting the powerful feature extraction modules of Convolutional Neural Networks. Lastly, our approach based on adversarial networks proved to be promising to enable the use of multi-input segmentation models when some of them are missing, thanks to image translation.
PIRODDI, LUIGI
MARTINENGHI, DAVIDE
MAINARDI, LUCA
31-mag-2022
Addressing collaborative machine learning challenges in medical imaging
L'apprendimento automatico e l'apprendimento profondo per l'imaging medico sono strumenti promettenti per supportare dottori e radiologi nel processo di diagnosi. Tuttavia, i modelli di apprendimento automatico per immagini richiedono enormi quantità di dati. Nonostante molti istituti stiano collaborando per produrre basi di dati pubbliche per immagini mediche, il processo di acquisizione dei dati è severamente limitato da alcune sfide. Queste sfide sono relative alle regolamentazioni sulla privacy e alla quantità di impegno richiesto agli esperti del dominio per valutare e produrre dati di qualità elevata. Inoltre, le difficoltà di gestione di grandi basi di dati di immagini mediche si traduce in una scarsità di dati disponibili per la ricerca. Questa tesi di dottorato studia l'apprendimento automatico collaborativo come un approccio metodologico atto ad affrontare il problema della disponibilità di dati. L'Apprendimento Automatico Collaborativo è un'area di ricerca che include diverse tecniche, come l'Apprendimento Distribuito e i metodi di Apprendimento Ensemble, che permettono l'uso di più basi di dati private all'interno di studi multicentrici. L'idea principale dietro l'apprendimento automatico collaborativo è affrontare la questione della riservatezza dei dati sensibili condividendo la conoscenza appresa anziché i dati. Tuttavia, questo approccio pone delle sfide aggiuntive che includono la gestione dell'eterogeneità dei dati, dovuta alle diverse popolazioni rappresentate nelle basi di dati locali, e l'incompletezza dei dati, dovuta a diversi standard di acquisizione tra i diversi istituti. Questa tesi fornisce innanzitutto una tassonomia generale utile a classificare i diversi approcci presenti in letteratura. Analizziamo inoltre alcune tecniche ben affermate come l'apprendimento ensemble e il transfer learning, nel contesto dell'apprendimento automatico collaborativo. Analizzado i più recenti contributi basati sull'apprendimento distribuito, proponiamo un'analisi comparativa delle performances rispetto all'eterogeneità dei dati ed ai vincoli di riservatezza. I nostri esperimenti studiano diversi approcci che sfruttano metodi ensemble, apprendimento distribuito e transfer learning per affrontare diverse sfide, quali l'eterogeneità dei modelli e delle etichette, utilizzando basi di dati pubbliche e private. Infine, proponiamo il nostro approccio per la segmentazione di immagini basata sulle reti avversarie e reti avversarie generative per studiare possibili approcci al problema della presenza di dati incompleti nelle basi di dati di immagini mediche. I risultati sono promettenti e mostrano che l'apprendimento collaborativo può superare le sfide descritte. In particolare, i metodi ensemble permettono di costruire un singolo modello a partire da più modelli con diverse architetture, quando questi sono stati addestrati utilizzando sottoinsiemi diversi di dati. Inoltre, l'apprendimento distribuito si è dimostrato di essere una buona scelta nei contesti in cui la riservatezza dei dati è essenziale, specialmente quando sono presenti dati eterogenei. Il transfer learning e i metodi embedding permettono l'addrstramento di modelli personalizzati anche su basi di dati di dimensione limitata, sfruttando i moduli per l'estrazione di caratteristiche delle reti neurali convolutive. Infine, il nostro approccio basato sulle reti avversarie si è dimostrato essere utile nel permettere l'utilizzo di modelli di segmentazione a più ingressi, anche quando i dati relativi ad alcuni di questi sono mancanti, sfruttando la traduzione automatica di immagini.
File allegati
File Dimensione Formato  
Edoardo Giacomello - PHD thesis - Reviewed.pdf

accessibile in internet per tutti

Dimensione 13.42 MB
Formato Adobe PDF
13.42 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/188696