Introduction: In the past decades, several clinical trials have demonstrated the benefits of low dose CT (LDCT) screening for early detection of lung cancer. Nonetheless, questions remain about the costs of large‐scale screening, the large number of images the radiologists have to deal with, and the potential over‐diagnosis associated with false positive findings. Computer‐aided decision support tools have been touted as a means to reduce the radiologist workload, reduce inter‐observer variation and improve the ability of radiologists to detect pulmonary nodules. The feasibility of lung cancer screening (LCS) thanks to these technologies seems to be more realistic with the advent of deep learning (DL) and with the introduction of the “radiomics” concept in medical imaging, but, despite their potential, multiple obstacles need to be overcome for their introduction in clinical practice. The general aim of the project was to implement and investigate DL and radiomics-based machine learning (ML) strategies using low-dose CT, to provide decision-making tools able to support and improve LCS with particular attention to some of the limitations that hinder their usage as healthcare support tools. Materials and methods: The framework of the PhD project was conducted in collaboration with the European Institute of Oncology (IEO, Milano, Italy) from which we took advantage of data acquired during the COSMOS study, LCS research program that involved 5200 subjects over a period of 10 years. Since both DL and radiomics technologies rely on large quantity of data to increase their performance, we first faced the lack of standards in describing data collections, which is necessary to optimize the process of data sharing, and the problem of labelled data scarcity, which are necessary to reach more performant solutions through supervised learning strategies and to reduce the time-consuming manual labelling. This brought to the definition of a lung cancer screening repository for research usage. Despite the known approaches that can increase performance and generalization ability of DL and radiomics based ML algorithms on new data, their reliability must be evaluated to prove that automatic outcomes can be comparable to those of a medical doctor. To meet this need, external validation is of fundamental importance being nowadays the most robust strategy to prove reliability of automatic algorithms. Accordingly, we implemented and externally validated radiomics models for lung cancer risk and malignancy prediction. Taking advantage of the previously defined repository, a DL model, Sybil, for the optimization of lung cancer screening follow-up exams was externally validated too. Since we faced the field of radiomics-based ML models implementation, in this thesis we performed also an analysis on how different lung cancer dataset composition can affect ML strategies Results: As result of this PhD thesis, we proposed a data model as reference to describe data and cause-effect relationship between different fields making easier the process of data preparation for the development of DL and radiomics models. Through a DL model developed for semi-automatic segmentation, we were able to collect labels for the implementation and investigation DL and radiomics-based ML strategies to support LCS with decision-making tools. A Radiomics-based model developed for malignancy prediction of indeterminate pulmonary nodules resulted in comparable performance with respect to other literature models and higher performance with respect to clinical models also in the set of data independent from the training phase. The external validation of Sybil, DL model that predicts risk of lung cancer up to six year from a single CT scan, resulted in the need of adaptation strategies to increase its reliability. Our analysis of radiomics-based ML strategies brought to the definition of guidelines on how to choose the best approach according to the available data. Conclusion: In this work, strategies based on DL and radiomics-based machine learning (ML) approaches based on low-dose CT were investigated and supported by data management strategies towards improved LCS.

Introduzione: Nelle decadi passate, diversi trial clinici hanno dimostrato il beneficio dello screening tramite tomografia computerizzata a basso dosaggio di radiazioni (Low-dose Computerized Tomography, LDCT) per la diagnosi precoce del tumore polmonare. Nonostante i risultati ottenuti, è ancora in dubbio l’applicabilità di questo programma di prevenzione per via dei costi elevati, per la mole di immagini che i radiologi dovrebbero analizzare e per il problema dell’over-diagnosi legato all’elevato numero di falsi positivi. I sistemi di supporto decisionale sono stati quindi pensati per ridurre la mole di lavoro dei radiologi, ridurre la variabilità tra operatori e supportare i radiologi in fase di identificazione dei noduli polmonari. Grazie a queste tecnologie, la fattibilità dello screening al polmone sembra essere più realistica specialmente con l’avvento del deep learning (DL) nell’ambito della diagnostica per immagini e con l’introduzione del concetto di radiomica ma, nonostante il loro potenziale, diversi ostacoli vanno ancora superati per introdurre il loro utilizzo nella pratica clinica. L’obbiettivo generale di questo progetto è stato quello di investigare strategie di DL e radiomica usando low-dose CT, per arrivare a sistemi di supporto decisionale e migliorare il workflow dello screening del tumore polmonare (Lung cancer screening, LCS) dando particolare attenzione ad alcune delle limitazioni associate a queste nuove tecnologie che, al giorno d'oggi, ne impediscono il loro utilizzo come supporto alla sanità. Materiali e metodi: Questo progetto di dottorato è stato svolto in collaborazione con l’Istituto Europeo di Oncologia (IEO, Milano, Italia) che ci ha dato a disposizione i dati acquisiti durante lo studio COSMOS, programma di LCS che ha coinvolto 5200 soggetti per un periodo di 10 anni. Dal momento che sia il DL che la radiomica si basano sull’utilizzo di una grande quantità di dati per ottenere migliori capacità predittive, come prima problematica abbiamo affrontato la necessità di descrivere i dati secondo degli standard , pratica necessaria per migliorare la condivisione di dati tra centri diversi, seguita dal problema della scarsità di dati associati a label , necessari per ottenere soluzioni più performanti tramite l'apprendimento supervisionato e per sviluppare tecniche volte alla riduzione dei tempi necessari all'associazione manuale di label. Questo ci ha portato a definire un dataset di LCS utilizzabile per scopi di ricerca. Nonostante ci siano delle procedure note che possono migliorare su nuovi dati le performance e la generalizabilità di modelli DL e di machine learning (ML) basati su radiomica , la loro affidabilità deve essere valutata per dimostrare che gli output predetti siano comparabili con quelli di un operatore clinico. Per andare in contro a questa necessità, la validazione esterna è di fondamentale importanza essendo al giorno d’oggi la strategia più robusta per provare l’affidabilità degli algoritmi automatici. Abbiamo dunque implementato e validato esternamente un modello di radiomica per predire la malignità delle lesioni polmonari. Traendo vantaggio del dataset COSMOS precedentemente definito, abbiamo inoltre validato esternamente Sybil, modello di DL implementato per ottimizzare i periodi di follow-up. Avendo trattato il problema dell’implementazione dei modelli di radiomica, in questo lavoro di tesi abbiamo anche svolto un’analisi su come i modelli ML di radiomica vengono affetti da diverse composizioni di dataset LCS. Risultati: Come risultato di questo progetto di dottorato, abbiamo proposto un modello di dati come riferimento per la descrizione di dataset e delle relazioni causa-effetto presenti tra campi differenti così da rendere più semplice il processo di preparazione dei dati per lo sviluppo di modelli di radiomica e di DL. Grazie all’implementazione di un modello DL per la segmentazione automatica, è stato possibile facilitare la raccolta di label per l’implementazione di futuri modelli di DL e radiomica per la realizzazione di sistemi di supporto decisionale per i programmi di LCS. Il modello di radiomica implementato per la predizione di malignità su noduli polmonari indeterminati, è risultato , su dati indipendenti dalla fase di apprendimento, comparabile in termini di performance con altri modelli proposti in letteratura e superiore rispetto a un modello basato su variabili cliniche. Dalla validazione esterna del modello Sybil, realizzato per predire il rischio di insorgenza di tumore al polmone sino a 6 anni di distanza dalla scansione LDCT, è emersa la necessità di applicare strategie di adattamento per migliorare la sua affidabilità su dati indipendenti. L’analisi svolta sui modelli di radiomica basati su diverse strategie di ML, ha incece portato alla definizione di linee guida per la scelta della strategia migliore da adottare in accordo alla composizione di dati che uno dispone. Conclusioni: In questo lavoro, sono state investigate strategie di DL e ML basati su radiomica e strategie di supporto alla gestione di dati per andare verso l’ottimizzazione del LCS basato sull’utilizzato di LDCT.

Improving low-dose CT lung cancer screening through radiomics and deep learning

GARAU, NOEMI
2023/2024

Abstract

Introduction: In the past decades, several clinical trials have demonstrated the benefits of low dose CT (LDCT) screening for early detection of lung cancer. Nonetheless, questions remain about the costs of large‐scale screening, the large number of images the radiologists have to deal with, and the potential over‐diagnosis associated with false positive findings. Computer‐aided decision support tools have been touted as a means to reduce the radiologist workload, reduce inter‐observer variation and improve the ability of radiologists to detect pulmonary nodules. The feasibility of lung cancer screening (LCS) thanks to these technologies seems to be more realistic with the advent of deep learning (DL) and with the introduction of the “radiomics” concept in medical imaging, but, despite their potential, multiple obstacles need to be overcome for their introduction in clinical practice. The general aim of the project was to implement and investigate DL and radiomics-based machine learning (ML) strategies using low-dose CT, to provide decision-making tools able to support and improve LCS with particular attention to some of the limitations that hinder their usage as healthcare support tools. Materials and methods: The framework of the PhD project was conducted in collaboration with the European Institute of Oncology (IEO, Milano, Italy) from which we took advantage of data acquired during the COSMOS study, LCS research program that involved 5200 subjects over a period of 10 years. Since both DL and radiomics technologies rely on large quantity of data to increase their performance, we first faced the lack of standards in describing data collections, which is necessary to optimize the process of data sharing, and the problem of labelled data scarcity, which are necessary to reach more performant solutions through supervised learning strategies and to reduce the time-consuming manual labelling. This brought to the definition of a lung cancer screening repository for research usage. Despite the known approaches that can increase performance and generalization ability of DL and radiomics based ML algorithms on new data, their reliability must be evaluated to prove that automatic outcomes can be comparable to those of a medical doctor. To meet this need, external validation is of fundamental importance being nowadays the most robust strategy to prove reliability of automatic algorithms. Accordingly, we implemented and externally validated radiomics models for lung cancer risk and malignancy prediction. Taking advantage of the previously defined repository, a DL model, Sybil, for the optimization of lung cancer screening follow-up exams was externally validated too. Since we faced the field of radiomics-based ML models implementation, in this thesis we performed also an analysis on how different lung cancer dataset composition can affect ML strategies Results: As result of this PhD thesis, we proposed a data model as reference to describe data and cause-effect relationship between different fields making easier the process of data preparation for the development of DL and radiomics models. Through a DL model developed for semi-automatic segmentation, we were able to collect labels for the implementation and investigation DL and radiomics-based ML strategies to support LCS with decision-making tools. A Radiomics-based model developed for malignancy prediction of indeterminate pulmonary nodules resulted in comparable performance with respect to other literature models and higher performance with respect to clinical models also in the set of data independent from the training phase. The external validation of Sybil, DL model that predicts risk of lung cancer up to six year from a single CT scan, resulted in the need of adaptation strategies to increase its reliability. Our analysis of radiomics-based ML strategies brought to the definition of guidelines on how to choose the best approach according to the available data. Conclusion: In this work, strategies based on DL and radiomics-based machine learning (ML) approaches based on low-dose CT were investigated and supported by data management strategies towards improved LCS.
DUBINI, GABRIELE ANGELO
BIANCHI, ANNA MARIA MADDALENA
PAGANELLI, CHIARA
20-mag-2024
Improving low-dose CT lung cancer screening through radiomics and deep learning
Introduzione: Nelle decadi passate, diversi trial clinici hanno dimostrato il beneficio dello screening tramite tomografia computerizzata a basso dosaggio di radiazioni (Low-dose Computerized Tomography, LDCT) per la diagnosi precoce del tumore polmonare. Nonostante i risultati ottenuti, è ancora in dubbio l’applicabilità di questo programma di prevenzione per via dei costi elevati, per la mole di immagini che i radiologi dovrebbero analizzare e per il problema dell’over-diagnosi legato all’elevato numero di falsi positivi. I sistemi di supporto decisionale sono stati quindi pensati per ridurre la mole di lavoro dei radiologi, ridurre la variabilità tra operatori e supportare i radiologi in fase di identificazione dei noduli polmonari. Grazie a queste tecnologie, la fattibilità dello screening al polmone sembra essere più realistica specialmente con l’avvento del deep learning (DL) nell’ambito della diagnostica per immagini e con l’introduzione del concetto di radiomica ma, nonostante il loro potenziale, diversi ostacoli vanno ancora superati per introdurre il loro utilizzo nella pratica clinica. L’obbiettivo generale di questo progetto è stato quello di investigare strategie di DL e radiomica usando low-dose CT, per arrivare a sistemi di supporto decisionale e migliorare il workflow dello screening del tumore polmonare (Lung cancer screening, LCS) dando particolare attenzione ad alcune delle limitazioni associate a queste nuove tecnologie che, al giorno d'oggi, ne impediscono il loro utilizzo come supporto alla sanità. Materiali e metodi: Questo progetto di dottorato è stato svolto in collaborazione con l’Istituto Europeo di Oncologia (IEO, Milano, Italia) che ci ha dato a disposizione i dati acquisiti durante lo studio COSMOS, programma di LCS che ha coinvolto 5200 soggetti per un periodo di 10 anni. Dal momento che sia il DL che la radiomica si basano sull’utilizzo di una grande quantità di dati per ottenere migliori capacità predittive, come prima problematica abbiamo affrontato la necessità di descrivere i dati secondo degli standard , pratica necessaria per migliorare la condivisione di dati tra centri diversi, seguita dal problema della scarsità di dati associati a label , necessari per ottenere soluzioni più performanti tramite l'apprendimento supervisionato e per sviluppare tecniche volte alla riduzione dei tempi necessari all'associazione manuale di label. Questo ci ha portato a definire un dataset di LCS utilizzabile per scopi di ricerca. Nonostante ci siano delle procedure note che possono migliorare su nuovi dati le performance e la generalizabilità di modelli DL e di machine learning (ML) basati su radiomica , la loro affidabilità deve essere valutata per dimostrare che gli output predetti siano comparabili con quelli di un operatore clinico. Per andare in contro a questa necessità, la validazione esterna è di fondamentale importanza essendo al giorno d’oggi la strategia più robusta per provare l’affidabilità degli algoritmi automatici. Abbiamo dunque implementato e validato esternamente un modello di radiomica per predire la malignità delle lesioni polmonari. Traendo vantaggio del dataset COSMOS precedentemente definito, abbiamo inoltre validato esternamente Sybil, modello di DL implementato per ottimizzare i periodi di follow-up. Avendo trattato il problema dell’implementazione dei modelli di radiomica, in questo lavoro di tesi abbiamo anche svolto un’analisi su come i modelli ML di radiomica vengono affetti da diverse composizioni di dataset LCS. Risultati: Come risultato di questo progetto di dottorato, abbiamo proposto un modello di dati come riferimento per la descrizione di dataset e delle relazioni causa-effetto presenti tra campi differenti così da rendere più semplice il processo di preparazione dei dati per lo sviluppo di modelli di radiomica e di DL. Grazie all’implementazione di un modello DL per la segmentazione automatica, è stato possibile facilitare la raccolta di label per l’implementazione di futuri modelli di DL e radiomica per la realizzazione di sistemi di supporto decisionale per i programmi di LCS. Il modello di radiomica implementato per la predizione di malignità su noduli polmonari indeterminati, è risultato , su dati indipendenti dalla fase di apprendimento, comparabile in termini di performance con altri modelli proposti in letteratura e superiore rispetto a un modello basato su variabili cliniche. Dalla validazione esterna del modello Sybil, realizzato per predire il rischio di insorgenza di tumore al polmone sino a 6 anni di distanza dalla scansione LDCT, è emersa la necessità di applicare strategie di adattamento per migliorare la sua affidabilità su dati indipendenti. L’analisi svolta sui modelli di radiomica basati su diverse strategie di ML, ha incece portato alla definizione di linee guida per la scelta della strategia migliore da adottare in accordo alla composizione di dati che uno dispone. Conclusioni: In questo lavoro, sono state investigate strategie di DL e ML basati su radiomica e strategie di supporto alla gestione di dati per andare verso l’ottimizzazione del LCS basato sull’utilizzato di LDCT.
File allegati
File Dimensione Formato  
PhD_Noemi_cleaned.pdf

solo utenti autorizzati a partire dal 12/05/2025

Descrizione: Phd thesis
Dimensione 8.04 MB
Formato Adobe PDF
8.04 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/221192