In the ordinary clinical practice there are many heterogeneities among patients that can only be captured with studies based on real-world data (RWD). In particular, the definition of the value brought by new cancer treatments through the generation of real-world evidence is of paramount importance to guide decisions on health and pharmaceutical policy. The primary objective of this thesis is the implementation of an innovative Oncology Data platform for integrating real-world administrative and health data extracted from different sources; for generating evidence to support clinical practice and measure the value of innovative cancer drugs. The IRCSS Foundation "Istituto Nazionale dei Tumori" (INT) has been identified as a pilot center for accessing and systematizing routine hospital data. In fact, the main data source supporting the project comes from the INT datawarehouse (DWH). In details, this thesis work is focused on a retrospective analysis on a cohort of patients affected by non-small cell lung cancer (NSCLC) with EGFR mutation. Starting from the collected sample, we have defined a pipeline for automatic clinical information extraction from unstructured data of Italian Electronical Health Records (EHR). Moreover, we have developed a methodology for the cost-effectiveness analysis of new therapies for cancer treatment in the real-world setting. Promising results are obtained in the analysis of the considered cohort. Furthermore, the defined procedures can be generalized and extended to process data from various Italian cancer hospitals, thereby further extending the applicability of the devised pipeline.

Nella pratica clinica ordinaria ci sono molte eterogeneità tra i pazienti che possono essere colte solo attraverso studi che si basano sui dati real-world. In particolare, la definizione del valore apportato dai nuovi trattamenti oncologici attraverso la generazione di evidenze real-world è di fondamentale importanza per orientare le decisioni sulla politica sanitaria e farmaceutica. L'obbiettivo primario di questa tesi è l'implementazione di un'innovativa piattaforma di dati oncologici che integra dati real-world di tipo amministrativo e sanitario estratti da diverse fonti; per la generazione di evidenze a supporto della pratica clinica e per misurare il valore dei nuovi farmaci antitumorali. La Fondazione IRCCS Istituto Nazionale dei Tumori (INT) è stata identificata come centro pilota per l'accesso e la sistematizzazione dei dati ospedalieri di routine. Infatti, la principale fonte di dati a supporto del progetto proviene dal datawarehouse (DWH) dell' INT. In dettaglio, questo lavoro di tesi è incentrato su un'analisi retrospettiva su una coorte di pazienti affetti da carcinoma polmonare non a piccole cellule (NSCLC) con mutazione EGFR. A partire dal campione raccolto, abbiamo definito una pipeline per l'estrazione automatica di informazioni cliniche dai dati non strutturati delle cartelle cliniche elettroniche (CCE) italiane. Inoltre, abbiamo sviluppato una metodologia per l'analisi costo-efficacia di nuove terapie per il trattamento del cancro nel contesto real-world. Risultati promettenti si ottengono nell'analisi della coorte considerata. Inoltre, le procedure definite possono essere generalizzate ed estese per elaborare dati provenienti da vari ospedali oncologici italiani, estendendo ulteriormente l'applicabilità della pipeline ideata.

Combination of text mining and statistical learning techniques for the generation of real world evidence in oncology : a case study for patients affected by NSCLC with EGFR mutation

IOB, ANNA
2021/2022

Abstract

In the ordinary clinical practice there are many heterogeneities among patients that can only be captured with studies based on real-world data (RWD). In particular, the definition of the value brought by new cancer treatments through the generation of real-world evidence is of paramount importance to guide decisions on health and pharmaceutical policy. The primary objective of this thesis is the implementation of an innovative Oncology Data platform for integrating real-world administrative and health data extracted from different sources; for generating evidence to support clinical practice and measure the value of innovative cancer drugs. The IRCSS Foundation "Istituto Nazionale dei Tumori" (INT) has been identified as a pilot center for accessing and systematizing routine hospital data. In fact, the main data source supporting the project comes from the INT datawarehouse (DWH). In details, this thesis work is focused on a retrospective analysis on a cohort of patients affected by non-small cell lung cancer (NSCLC) with EGFR mutation. Starting from the collected sample, we have defined a pipeline for automatic clinical information extraction from unstructured data of Italian Electronical Health Records (EHR). Moreover, we have developed a methodology for the cost-effectiveness analysis of new therapies for cancer treatment in the real-world setting. Promising results are obtained in the analysis of the considered cohort. Furthermore, the defined procedures can be generalized and extended to process data from various Italian cancer hospitals, thereby further extending the applicability of the devised pipeline.
TORRI, VITTORIO
ING - Scuola di Ingegneria Industriale e dell'Informazione
20-dic-2022
2021/2022
Nella pratica clinica ordinaria ci sono molte eterogeneità tra i pazienti che possono essere colte solo attraverso studi che si basano sui dati real-world. In particolare, la definizione del valore apportato dai nuovi trattamenti oncologici attraverso la generazione di evidenze real-world è di fondamentale importanza per orientare le decisioni sulla politica sanitaria e farmaceutica. L'obbiettivo primario di questa tesi è l'implementazione di un'innovativa piattaforma di dati oncologici che integra dati real-world di tipo amministrativo e sanitario estratti da diverse fonti; per la generazione di evidenze a supporto della pratica clinica e per misurare il valore dei nuovi farmaci antitumorali. La Fondazione IRCCS Istituto Nazionale dei Tumori (INT) è stata identificata come centro pilota per l'accesso e la sistematizzazione dei dati ospedalieri di routine. Infatti, la principale fonte di dati a supporto del progetto proviene dal datawarehouse (DWH) dell' INT. In dettaglio, questo lavoro di tesi è incentrato su un'analisi retrospettiva su una coorte di pazienti affetti da carcinoma polmonare non a piccole cellule (NSCLC) con mutazione EGFR. A partire dal campione raccolto, abbiamo definito una pipeline per l'estrazione automatica di informazioni cliniche dai dati non strutturati delle cartelle cliniche elettroniche (CCE) italiane. Inoltre, abbiamo sviluppato una metodologia per l'analisi costo-efficacia di nuove terapie per il trattamento del cancro nel contesto real-world. Risultati promettenti si ottengono nell'analisi della coorte considerata. Inoltre, le procedure definite possono essere generalizzate ed estese per elaborare dati provenienti da vari ospedali oncologici italiani, estendendo ulteriormente l'applicabilità della pipeline ideata.
File allegati
File Dimensione Formato  
2022_12_Iob.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: testo tesi
Dimensione 1.68 MB
Formato Adobe PDF
1.68 MB Adobe PDF   Visualizza/Apri
2022_12_Iob_01.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: testo executive summary
Dimensione 511.07 kB
Formato Adobe PDF
511.07 kB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/196881