Introduction: In advanced Non-Small Cell Lung Cancer (NSCLC), Programmed Death Ligand 1 (PD-L1) remains the only used biomarker to candidate patients to immunotherapy (IO) even if its predictive accuracy is not satisfactory. Indeed, given the complex dynamics underlying the cross-talk between the tumor and its microenvironment, it is unlikely that a single biomarker could be able to profile prediction with high precision. Artificial Intelligence (AI) and machine learning are techniques able to analyze and interpret big data, which cope with this complexity. The present study aims at using AI tools to improve response and efficacy prediction in NSCLC patients treated with IO. Methods: A classification task to determine if a patient is likely to benefit from IO was formulated using complete clinical data, PD-L1, histology, molecular data, and the blood microRNA signature classifier (MSC), which include 24 different microRNAs. Patints were divided into responders, who obtained a partial response or stable disease as best response, and non-responders, who experienced progressive disease. A forward feature selection technique based on the Akaike Information Criterion was used to extract a specific subset of the patients data, being the most informative ones for the task. To develop the final predictive model, different machine learning methods have been tested: Linear Regression, Logistic Regression, Kernel Support Vector Machines, Feedforward Neural Network, and Random Forest. Results: Of 164 enrolled patients, 73 (44,5%) were responders and 91 (55,5%) non-responder. At data cut-off (Nov 2020), median Overall Sur-vival was 10,1 (95% IC 7,0 - 13,2) months. OS for responders patients was 38:5 months (95% IC 23,9 - 53,1) vs 3,8 months (95% IC 2,8 - 4,7) of non responders, p < 0:001. Overall, the best model was the Logistic Regression and included 5 features (3 clinical, 1 tissue and 1 blood features): ECOG performance status, IO-line of therapy, the neutrophil-to-lymphocyte ratio (NLR), the MSC test and PD-L1 with the following corresponding parameters w= (0,692; 0,718; 1,058; 0,566; -0,471), respectively. The intercept of the model is w0 = 0,467, and the model achieves a 75% accuracy, computed using a leave-one-out approach. PD-L1 alone has an accuracy of 65%. We also evaluated the accuracy of the models excluding PD-L1 (74% accuracy), MSC (73% accuracy), and excluding both PD-L1 and MSC considering only clinical features (71% accuracy). Conclusions: The results suggest that the data integration provided by AI techniques is a powerful tool to improve personalized selection of patients candidates to IO. In particular, the model shows that higher ECOG, NLR value, IO-line, and MSC test level correlate negatively while higher PDL1 correlates positively with the response. The model confirms PD-L1 and MSC as relevant biomarkers to improve the accuracy of patients response. Considering the difference in survival among responders and non-responders groups, these results suggest that the model can also be used to indirectly predict OS.

Nel cancro del polmone non a piccole cellule (non-small-cell lung cancer, NSCLC), il Ligando di morte cellulare programmata-1 (Programmed Death Ligand 1, PD-L1) rimane l'unico biomarcatore utilizzato per la candidatura dei pazienti all'immunoterapia (IO), sebbene la sua accuratezza predittiva non sia soddisfacente. Infatti, viste le complesse dinamiche alla base del cross-talk tra il tumore e il suo microambiente, è improbabile che un singolo biomarcatore sia in grado di profilare la previsione con alta precisione. L’intelligenza artificiale (AI) e il machine learning sono tecniche in grado di analizzare ed interpretare l’enorme mole dei dati dei pazienti in modo da far fronte a questa complessità. L’obbiettivo di questo studio è quello di utilizzare strumenti come l’intelligenza artificiale per migliorare la risposta e la previsione dell’efficacia nei pazienti affetti da NSCLC trattati con IO. Il problema di classificazione per determinare se un paziente è in grado di trarre beneficio dalla terapia IO è stato formulato utilizzando dati clinici completi come: Pd-L1, Istologia molecolare, biopsia liquida del microRNA del plasma (MSC) la quale include 24 diversi microRNA . I pazienti sono stati suddivisi a seconda della risposta o meno al trattamento, in particolare se essi hanno avuto una risposta parziale o stabile sono stati identificati come rispondenti, se invece il tumore ha continuato a progredire sono stati etichettati come non rispondenti. La tecnica di forward feature selection basata sul criterio d’informazione Akaike è stata usata per selezionare quali, tra i diversi dati dei pazienti, risultasse essere più rilevante. Una volta selezionato il sottogruppo di caratteristiche più significative sono stati usati diversi metodi di apprendimento automatico come : Logistic regression, Linear regression, Feedforward neural network, Kernel support vector machine e Random forest. Dei 164 pazienti soggetti alla terapia 73 (44,5%) ha risposto alla terapia mentre 91 (55,5%) è stata soggetta a una progressione del tumore. Nel novembre 2020 i pazienti la sopravvivenza globale (Overall survival OS) dei pazienti era di 10,1 (95% IC 7,13– 13,2) mesi. L’OS per i pazienti rispondenti era di 38,5 (95% IC 23,9 – 53,1) mesi contro i 3,8 (95% IC 2,8 – 4,7) dei non rispondenti, p < 0:001. Il modello con le prestazioni migliori è stato Logistic regression che include 5 features: la performance di stato ECOG, la linea di terapia IO, rapporto tra neutrofili e linfociti NLR, il test MSC, e il PD-L1 con i rispettivi parametri w= 0,692; 0,718; 1,058; 0,566; -0,471. Dove il termine di intercettazione è w= 0,47 e il modello raggiunge l’accuratezza pari al 75% con AUC= 82%, utilizzando un approccio leave-one-out. Si fa presente che il PD-L1 da solo ha un’accuratezza del 65%, dato importante in quanto rappresenta il valore di riferimento attualmente usato in ambito clinico. In seguito sono stati valutate le accuratezze dei modelli di Logistic regression nel quale erano state tolte le features di PD-L1 ( risultando con un accuratezza del 74%), MSC (73%), ed entrambe (71%) considerando quindi solo i dati clinici. I risultati suggeriscono che l’integrazione dell’analisi dei dati tramite AI sia uno strumento valido per migliorare il processo di selezione dei pazienti candidati all’ IO. In particolare, il modello mostra che i valori di ECOG, NLR, linea IO e livello di test MSC sono correlati negativamente alla risposta del paziente mentre PDL1 si correla positivamente. Il modello conferma PD-L1 e MSC come biomarcatori rilevanti per migliorare l'accuratezza della risposta dei pazienti. Inoltre considerando la differenza di sopravvivenza tra chi risponde e non è possibile utilizzare il modello per predire indirettamente l’ OS dei pazienti.

Machine learning to predict response in NSCLC treated with single agent immunotherapy

ROBUSCHI, ALESSANDRO
2020/2021

Abstract

Introduction: In advanced Non-Small Cell Lung Cancer (NSCLC), Programmed Death Ligand 1 (PD-L1) remains the only used biomarker to candidate patients to immunotherapy (IO) even if its predictive accuracy is not satisfactory. Indeed, given the complex dynamics underlying the cross-talk between the tumor and its microenvironment, it is unlikely that a single biomarker could be able to profile prediction with high precision. Artificial Intelligence (AI) and machine learning are techniques able to analyze and interpret big data, which cope with this complexity. The present study aims at using AI tools to improve response and efficacy prediction in NSCLC patients treated with IO. Methods: A classification task to determine if a patient is likely to benefit from IO was formulated using complete clinical data, PD-L1, histology, molecular data, and the blood microRNA signature classifier (MSC), which include 24 different microRNAs. Patints were divided into responders, who obtained a partial response or stable disease as best response, and non-responders, who experienced progressive disease. A forward feature selection technique based on the Akaike Information Criterion was used to extract a specific subset of the patients data, being the most informative ones for the task. To develop the final predictive model, different machine learning methods have been tested: Linear Regression, Logistic Regression, Kernel Support Vector Machines, Feedforward Neural Network, and Random Forest. Results: Of 164 enrolled patients, 73 (44,5%) were responders and 91 (55,5%) non-responder. At data cut-off (Nov 2020), median Overall Sur-vival was 10,1 (95% IC 7,0 - 13,2) months. OS for responders patients was 38:5 months (95% IC 23,9 - 53,1) vs 3,8 months (95% IC 2,8 - 4,7) of non responders, p < 0:001. Overall, the best model was the Logistic Regression and included 5 features (3 clinical, 1 tissue and 1 blood features): ECOG performance status, IO-line of therapy, the neutrophil-to-lymphocyte ratio (NLR), the MSC test and PD-L1 with the following corresponding parameters w= (0,692; 0,718; 1,058; 0,566; -0,471), respectively. The intercept of the model is w0 = 0,467, and the model achieves a 75% accuracy, computed using a leave-one-out approach. PD-L1 alone has an accuracy of 65%. We also evaluated the accuracy of the models excluding PD-L1 (74% accuracy), MSC (73% accuracy), and excluding both PD-L1 and MSC considering only clinical features (71% accuracy). Conclusions: The results suggest that the data integration provided by AI techniques is a powerful tool to improve personalized selection of patients candidates to IO. In particular, the model shows that higher ECOG, NLR value, IO-line, and MSC test level correlate negatively while higher PDL1 correlates positively with the response. The model confirms PD-L1 and MSC as relevant biomarkers to improve the accuracy of patients response. Considering the difference in survival among responders and non-responders groups, these results suggest that the model can also be used to indirectly predict OS.
PRELAJ, ARSELA
TROVÒ, FRANCESCO
ING - Scuola di Ingegneria Industriale e dell'Informazione
28-apr-2021
2020/2021
Nel cancro del polmone non a piccole cellule (non-small-cell lung cancer, NSCLC), il Ligando di morte cellulare programmata-1 (Programmed Death Ligand 1, PD-L1) rimane l'unico biomarcatore utilizzato per la candidatura dei pazienti all'immunoterapia (IO), sebbene la sua accuratezza predittiva non sia soddisfacente. Infatti, viste le complesse dinamiche alla base del cross-talk tra il tumore e il suo microambiente, è improbabile che un singolo biomarcatore sia in grado di profilare la previsione con alta precisione. L’intelligenza artificiale (AI) e il machine learning sono tecniche in grado di analizzare ed interpretare l’enorme mole dei dati dei pazienti in modo da far fronte a questa complessità. L’obbiettivo di questo studio è quello di utilizzare strumenti come l’intelligenza artificiale per migliorare la risposta e la previsione dell’efficacia nei pazienti affetti da NSCLC trattati con IO. Il problema di classificazione per determinare se un paziente è in grado di trarre beneficio dalla terapia IO è stato formulato utilizzando dati clinici completi come: Pd-L1, Istologia molecolare, biopsia liquida del microRNA del plasma (MSC) la quale include 24 diversi microRNA . I pazienti sono stati suddivisi a seconda della risposta o meno al trattamento, in particolare se essi hanno avuto una risposta parziale o stabile sono stati identificati come rispondenti, se invece il tumore ha continuato a progredire sono stati etichettati come non rispondenti. La tecnica di forward feature selection basata sul criterio d’informazione Akaike è stata usata per selezionare quali, tra i diversi dati dei pazienti, risultasse essere più rilevante. Una volta selezionato il sottogruppo di caratteristiche più significative sono stati usati diversi metodi di apprendimento automatico come : Logistic regression, Linear regression, Feedforward neural network, Kernel support vector machine e Random forest. Dei 164 pazienti soggetti alla terapia 73 (44,5%) ha risposto alla terapia mentre 91 (55,5%) è stata soggetta a una progressione del tumore. Nel novembre 2020 i pazienti la sopravvivenza globale (Overall survival OS) dei pazienti era di 10,1 (95% IC 7,13– 13,2) mesi. L’OS per i pazienti rispondenti era di 38,5 (95% IC 23,9 – 53,1) mesi contro i 3,8 (95% IC 2,8 – 4,7) dei non rispondenti, p &lt; 0:001. Il modello con le prestazioni migliori è stato Logistic regression che include 5 features: la performance di stato ECOG, la linea di terapia IO, rapporto tra neutrofili e linfociti NLR, il test MSC, e il PD-L1 con i rispettivi parametri w= 0,692; 0,718; 1,058; 0,566; -0,471. Dove il termine di intercettazione è w= 0,47 e il modello raggiunge l’accuratezza pari al 75% con AUC= 82%, utilizzando un approccio leave-one-out. Si fa presente che il PD-L1 da solo ha un’accuratezza del 65%, dato importante in quanto rappresenta il valore di riferimento attualmente usato in ambito clinico. In seguito sono stati valutate le accuratezze dei modelli di Logistic regression nel quale erano state tolte le features di PD-L1 ( risultando con un accuratezza del 74%), MSC (73%), ed entrambe (71%) considerando quindi solo i dati clinici. I risultati suggeriscono che l’integrazione dell’analisi dei dati tramite AI sia uno strumento valido per migliorare il processo di selezione dei pazienti candidati all’ IO. In particolare, il modello mostra che i valori di ECOG, NLR, linea IO e livello di test MSC sono correlati negativamente alla risposta del paziente mentre PDL1 si correla positivamente. Il modello conferma PD-L1 e MSC come biomarcatori rilevanti per migliorare l'accuratezza della risposta dei pazienti. Inoltre considerando la differenza di sopravvivenza tra chi risponde e non è possibile utilizzare il modello per predire indirettamente l’ OS dei pazienti.
File allegati
File Dimensione Formato  
Alessandro Robuschi.pdf

accessibile in internet solo dagli utenti autorizzati

Dimensione 1.36 MB
Formato Adobe PDF
1.36 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/174943