Immunotherapy (IO) has brought a significant revolution in the treatment of non-small cell lung cancer (NSCLC). Hence, reliable biomarkers are required to identify patients that are most likely to benefit from this therapy. Since available biomarkers, such as PD-L1, demonstrated limited predicted efficacy, there is an urgent need for novel models to improve predictive capabilities. Analyzing CT scans, using machine learning (ML) and deep learning (DL) techniques, offers a promising approach to extract features from medical images and construct predictive models. This study aims at developing two types of solutions to predict efficacy of IO in advanced NSCLC. The first is ML-based and utilizes six different ML classifiers, by determining the best-performing one, while the second employs an end-to-end DL pipeline. The evaluation is performed on two data modalities: real-world data (RWD) and features extracted from CT scans. Baseline CT scans and clinical data were retrospectively collected from a cohort of 375 patients with advanced NSCLC at Fondazione IRCCS Istituto Nazionale dei Tumori di Milano. These patients received any-line of IO, either alone or in combination with chemotherapy. The final objective of this study is two-fold. Firstly, compare performances with the use of CT scans alone versus integrating them with RWD. Secondly, to evaluate and compare the performance of ML and DL models in terms of predictive accuracy. The final step for both the solutions involves conducting an explainability analysis with the computation of SHapley Additive exPlanations (SHAP) values. The main findings of the present work suggest that DL approach, with an accuracy of 0.63, slightly outperforms ML, which achieved an accuracy of 0.61, in predicting IO response using only features derived from CT scans. However, when the two data modalities are combined, ML achieves higher performance, with an accuracy of 0.69, compared to DL, which achieved an accuracy of 0.64. These results suggest another interesting observation. When the two data modalities are combined, ML exhibit an increase in predictive performance and ability to predict clinical benefit from IO. In the context of the explainability analysis, in ML models trained on combination of RWD and CT scans features, SHAP values revealed that the ECOG PS (RWD) and Large Dependence Emphasis (CT scan feature) had the greatest impact on the predictions. In DL, SHAP values were assigned to image pixels, revealing that the network predominantly concentrated on the edges of the tumor region of interest (ROI). These initial achievements could be the base of the ultimate goal of developing novel tools for selection of ideal candidates for IO. By investigating future perspectives, this research may contribute to the development of innovative approaches that can be applied in clinical practice.

L'immunoterapia ha portato una significativa rivoluzione nel trattamento del tumore al polmone non a piccole cellule. Pertanto, sono necessari biomarcatori affidabili per identificare i pazienti che hanno maggiori probabilità di beneficiare di questa terapia. Poiché i biomarcatori disponibili, come PD-L1, hanno dimostrato un'efficacia limitata, vi è un urgente bisogno di nuovi modelli per migliorare le capacità predittive. L’analisi delle TAC, utilizzando tecniche di machine learning (ML) e deep learning (DL), offre un approccio promettente per estrarre features da immagini mediche e costruire modelli predittivi. Questo studio sviluppa due tipi di soluzioni per prevedere l’efficacia dell'IO in pazienti affetti da tumore al polmone non a piccole cellule. Il primo è basato su ML e utilizza sei classificatori ML, determinando quello con le migliori prestazioni, mentre il secondo utilizza una pipeline DL end-to-end. La valutazione viene eseguita su due tipi di dati: dati clinici (RWD) e features estratte dalle TAC. Le TAC e i dati clinici sono stati raccolti retrospettivamente da una coorte di 375 pazienti con NSCLC avanzato presso la Fondazione IRCCS Istituto Nazionale dei Tumori di Milano. Questi pazienti hanno ricevuto qualsiasi linea di IO, da sola o in combinazione con la chemioterapia. L'obiettivo finale di questo studio è duplice. In primo luogo, confrontare prestazioni con l'uso delle sole scansioni TAC rispetto alla loro integrazione con RWD. In secondo luogo, valutare e confrontare le prestazioni dei modelli ML e DL in termini di accuratezza predittiva. Il passaggio finale per entrambe le soluzioni prevede la conduzione un'analisi di explainability con il calcolo di SHapley Additive exPlanations (SHAP). I principali risultati del presente lavoro suggeriscono che l'approccio DL, con una accuratezza di 0.63, supera leggermente ML, che ha raggiunto una accuratezza di 0.61, nella previsione della risposta IO utilizzando solo caratteristiche derivate dalle scansioni TAC. Tuttavia, quando le due modalità di dati sono combinate, ML raggiunge prestazioni più elevate, con una accuratezza di 0.69, rispetto a DL, che ha raggiunto una accuratezza di 0.64. Questi risultati suggeriscono un'altra osservazione interessante. Quando le due modalità di dati sono combinate, ML mostra un aumento delle prestazioni e delle capacità predittive per prevedere il beneficio clinico dall’ IO. Nel contesto dell'analisi di explainability, nei modelli ML addestrati sulla combinazione di dati, i valori SHAP rivelano che ECOG PS (RWD) e Large Dependence Emphasis (TAC feature) hanno il maggiore impatto sulle previsioni. In DL, i valori SHAP sono stati assegnati ai pixel dell'immagine, rivelando che il modello si è concentrato prevalentemente sui bordi della regione tumorale di interesse (ROI). Questi risultati iniziali potrebbero essere la base dell’obiettivo finale di sviluppare nuovi strumenti per la selezione dei candidati ideali all'IO. Indagando le prospettive future, questa ricerca può contribuire allo sviluppo di approcci innovativi applicabili nella pratica clinica.

Explainable Machine Learning and Deep Learning models to predict immunotherapy response in NSCLC patients using CT scans

FAVALI, MARGHERITA
2022/2023

Abstract

Immunotherapy (IO) has brought a significant revolution in the treatment of non-small cell lung cancer (NSCLC). Hence, reliable biomarkers are required to identify patients that are most likely to benefit from this therapy. Since available biomarkers, such as PD-L1, demonstrated limited predicted efficacy, there is an urgent need for novel models to improve predictive capabilities. Analyzing CT scans, using machine learning (ML) and deep learning (DL) techniques, offers a promising approach to extract features from medical images and construct predictive models. This study aims at developing two types of solutions to predict efficacy of IO in advanced NSCLC. The first is ML-based and utilizes six different ML classifiers, by determining the best-performing one, while the second employs an end-to-end DL pipeline. The evaluation is performed on two data modalities: real-world data (RWD) and features extracted from CT scans. Baseline CT scans and clinical data were retrospectively collected from a cohort of 375 patients with advanced NSCLC at Fondazione IRCCS Istituto Nazionale dei Tumori di Milano. These patients received any-line of IO, either alone or in combination with chemotherapy. The final objective of this study is two-fold. Firstly, compare performances with the use of CT scans alone versus integrating them with RWD. Secondly, to evaluate and compare the performance of ML and DL models in terms of predictive accuracy. The final step for both the solutions involves conducting an explainability analysis with the computation of SHapley Additive exPlanations (SHAP) values. The main findings of the present work suggest that DL approach, with an accuracy of 0.63, slightly outperforms ML, which achieved an accuracy of 0.61, in predicting IO response using only features derived from CT scans. However, when the two data modalities are combined, ML achieves higher performance, with an accuracy of 0.69, compared to DL, which achieved an accuracy of 0.64. These results suggest another interesting observation. When the two data modalities are combined, ML exhibit an increase in predictive performance and ability to predict clinical benefit from IO. In the context of the explainability analysis, in ML models trained on combination of RWD and CT scans features, SHAP values revealed that the ECOG PS (RWD) and Large Dependence Emphasis (CT scan feature) had the greatest impact on the predictions. In DL, SHAP values were assigned to image pixels, revealing that the network predominantly concentrated on the edges of the tumor region of interest (ROI). These initial achievements could be the base of the ultimate goal of developing novel tools for selection of ideal candidates for IO. By investigating future perspectives, this research may contribute to the development of innovative approaches that can be applied in clinical practice.
MISKOVIC, VANJA
PRELAJ, ARSELA
QUARTA, ALESSANDRO
ING - Scuola di Ingegneria Industriale e dell'Informazione
18-lug-2023
2022/2023
L'immunoterapia ha portato una significativa rivoluzione nel trattamento del tumore al polmone non a piccole cellule. Pertanto, sono necessari biomarcatori affidabili per identificare i pazienti che hanno maggiori probabilità di beneficiare di questa terapia. Poiché i biomarcatori disponibili, come PD-L1, hanno dimostrato un'efficacia limitata, vi è un urgente bisogno di nuovi modelli per migliorare le capacità predittive. L’analisi delle TAC, utilizzando tecniche di machine learning (ML) e deep learning (DL), offre un approccio promettente per estrarre features da immagini mediche e costruire modelli predittivi. Questo studio sviluppa due tipi di soluzioni per prevedere l’efficacia dell'IO in pazienti affetti da tumore al polmone non a piccole cellule. Il primo è basato su ML e utilizza sei classificatori ML, determinando quello con le migliori prestazioni, mentre il secondo utilizza una pipeline DL end-to-end. La valutazione viene eseguita su due tipi di dati: dati clinici (RWD) e features estratte dalle TAC. Le TAC e i dati clinici sono stati raccolti retrospettivamente da una coorte di 375 pazienti con NSCLC avanzato presso la Fondazione IRCCS Istituto Nazionale dei Tumori di Milano. Questi pazienti hanno ricevuto qualsiasi linea di IO, da sola o in combinazione con la chemioterapia. L'obiettivo finale di questo studio è duplice. In primo luogo, confrontare prestazioni con l'uso delle sole scansioni TAC rispetto alla loro integrazione con RWD. In secondo luogo, valutare e confrontare le prestazioni dei modelli ML e DL in termini di accuratezza predittiva. Il passaggio finale per entrambe le soluzioni prevede la conduzione un'analisi di explainability con il calcolo di SHapley Additive exPlanations (SHAP). I principali risultati del presente lavoro suggeriscono che l'approccio DL, con una accuratezza di 0.63, supera leggermente ML, che ha raggiunto una accuratezza di 0.61, nella previsione della risposta IO utilizzando solo caratteristiche derivate dalle scansioni TAC. Tuttavia, quando le due modalità di dati sono combinate, ML raggiunge prestazioni più elevate, con una accuratezza di 0.69, rispetto a DL, che ha raggiunto una accuratezza di 0.64. Questi risultati suggeriscono un'altra osservazione interessante. Quando le due modalità di dati sono combinate, ML mostra un aumento delle prestazioni e delle capacità predittive per prevedere il beneficio clinico dall’ IO. Nel contesto dell'analisi di explainability, nei modelli ML addestrati sulla combinazione di dati, i valori SHAP rivelano che ECOG PS (RWD) e Large Dependence Emphasis (TAC feature) hanno il maggiore impatto sulle previsioni. In DL, i valori SHAP sono stati assegnati ai pixel dell'immagine, rivelando che il modello si è concentrato prevalentemente sui bordi della regione tumorale di interesse (ROI). Questi risultati iniziali potrebbero essere la base dell’obiettivo finale di sviluppare nuovi strumenti per la selezione dei candidati ideali all'IO. Indagando le prospettive future, questa ricerca può contribuire allo sviluppo di approcci innovativi applicabili nella pratica clinica.
File allegati
File Dimensione Formato  
Master_thesis-MargheritaFavali.pdf

accessibile in internet per tutti

Descrizione: master thesis
Dimensione 10.33 MB
Formato Adobe PDF
10.33 MB Adobe PDF Visualizza/Apri
Executive_Summary-MargheritaFavali.pdf

accessibile in internet per tutti

Descrizione: executive summary
Dimensione 1 MB
Formato Adobe PDF
1 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/208262