The present work is carried out in collaboration with Istituto Clinico Humanitas (ICH). It is aimed at the upfront identification of primary chemo-sensitive and -refractory classical Hodgkin lymphoma (cHL) patients, since finding which patients' features determine their reaction to the chemotherapy regimes can help to improve therapies and to target interventions. In particular, our work focuses on the construction of a classification model on a training dataset of 194 cHL patients for which epigenetic fingerprints and clinical informations were registered in 4 different Research Centers. We start by performing preliminary analyses on the data to have a general visualization of the problem, then we concentrate on genetic information. Epigenetic data requires to be normalized in order to remove the effects caused by experimental procedures. For this process, we test different Normalization Factors identified using both literature information and empirical methods. Then, since data were collected in different Research Centers, we apply an empirical Bayes framework for the adjustment of the effects related to the laboratory differences. In conclusion, we set-up a classification model using both the genetic and clinical information of each patient, comparing different machine learning classifiers in a 10-fold cross-validation setting. The procedure is then refined and improved by performing some modifications on the work schedule, fixing the issues encountered in the construction of the working pipeline. Among others, multiple imputation techniques for dealing with missing data and advanced hierarchical classification algorithms (e.g., Generalized Mixed Effects Tree (GMET) and Forest (GMEF)) for dealing with grouped data are considered and tailored to the present case. In conclusion, all the constructed classification models are reported and the best one is selected. Furthermore, in the discussion, we analyze the criticality of the performed analyses and we propose future developments.

Il seguente lavoro è realizzato in collaborazione con l'Istituto Clinico Humanitas (ICH). Esso è finalizzato all'identificazione a priori dei pazienti chemio-sensibili e chemio-refrattari con linfoma di Hodgkin classico (cHL) allo scopo di individuare quali caratteristiche determinano la reazione dei pazienti ai regimi chemioterapici e poter quindi migliorare le terapie e mirare gli interventi. In particolare, il lavoro si concentra sulla costruzione di un modello di classificazione su un training dataset di 194 pazienti con linfoma di Hodgkin classico le cui impronte epigenetiche e informazioni cliniche sono state raccolte in 4 diversi centri di ricerca. Per iniziare, svolgiamo alcune analisi preliminari sui dati per avere una visione complessiva del problema, per poi concentrarci sull'informazione genetica. I dati epigenetici, infatti, devono essere normalizzati al fine di rimuovere gli effetti causati dalle procedure sperimentali. Per questo processo, testiamo diversi fattori di normalizzazione identificati utilizzando sia informazioni note in letteratura che metodi empirici. Inoltre, in quanto i dati sono stati raccolti in diversi centri di ricerca, applichiamo un metodo di Bayes empirico per rimuovere gli effetti dovuti ai diversi laboratori. In conclusione, costruiamo un modello di classificazione utilizzando sia le informazioni genetiche che cliniche di ciascun paziente, confrontando i diversi classificatori di Machine Learning con 10-fold cross-validation. Questa procedura è, in seguito, perfezionata e migliorata eseguendo alcune modifiche sul programma di lavoro, risolvendo i problemi riscontrati nella costruzione dello stesso. Tra le altre cose, sono prese in considerazione e adattate al presente caso le tecniche di imputazione multipla per gestire i dati mancanti e gli algoritmi di classificazione gerarchica (Generalized Mixed Effects Tree (GMET) e Forest (GMEF)) per gestire i dati raggruppati. In conclusione, sono riportati tutti i modelli di classificazione costruiti ed è selezionato il migliore. Inoltre, nella discussione, analizziamo le criticità delle analisi eseguite e proponiamo sviluppi futuri.

A model for the upfront identification of chemo-sensitive and -refractory classical Hodgkin lymphoma patients using genetic and clinical information

BARONI, GIULIA
2019/2020

Abstract

The present work is carried out in collaboration with Istituto Clinico Humanitas (ICH). It is aimed at the upfront identification of primary chemo-sensitive and -refractory classical Hodgkin lymphoma (cHL) patients, since finding which patients' features determine their reaction to the chemotherapy regimes can help to improve therapies and to target interventions. In particular, our work focuses on the construction of a classification model on a training dataset of 194 cHL patients for which epigenetic fingerprints and clinical informations were registered in 4 different Research Centers. We start by performing preliminary analyses on the data to have a general visualization of the problem, then we concentrate on genetic information. Epigenetic data requires to be normalized in order to remove the effects caused by experimental procedures. For this process, we test different Normalization Factors identified using both literature information and empirical methods. Then, since data were collected in different Research Centers, we apply an empirical Bayes framework for the adjustment of the effects related to the laboratory differences. In conclusion, we set-up a classification model using both the genetic and clinical information of each patient, comparing different machine learning classifiers in a 10-fold cross-validation setting. The procedure is then refined and improved by performing some modifications on the work schedule, fixing the issues encountered in the construction of the working pipeline. Among others, multiple imputation techniques for dealing with missing data and advanced hierarchical classification algorithms (e.g., Generalized Mixed Effects Tree (GMET) and Forest (GMEF)) for dealing with grouped data are considered and tailored to the present case. In conclusion, all the constructed classification models are reported and the best one is selected. Furthermore, in the discussion, we analyze the criticality of the performed analyses and we propose future developments.
CERI, STEFANO
ING - Scuola di Ingegneria Industriale e dell'Informazione
24-lug-2020
2019/2020
Il seguente lavoro è realizzato in collaborazione con l'Istituto Clinico Humanitas (ICH). Esso è finalizzato all'identificazione a priori dei pazienti chemio-sensibili e chemio-refrattari con linfoma di Hodgkin classico (cHL) allo scopo di individuare quali caratteristiche determinano la reazione dei pazienti ai regimi chemioterapici e poter quindi migliorare le terapie e mirare gli interventi. In particolare, il lavoro si concentra sulla costruzione di un modello di classificazione su un training dataset di 194 pazienti con linfoma di Hodgkin classico le cui impronte epigenetiche e informazioni cliniche sono state raccolte in 4 diversi centri di ricerca. Per iniziare, svolgiamo alcune analisi preliminari sui dati per avere una visione complessiva del problema, per poi concentrarci sull'informazione genetica. I dati epigenetici, infatti, devono essere normalizzati al fine di rimuovere gli effetti causati dalle procedure sperimentali. Per questo processo, testiamo diversi fattori di normalizzazione identificati utilizzando sia informazioni note in letteratura che metodi empirici. Inoltre, in quanto i dati sono stati raccolti in diversi centri di ricerca, applichiamo un metodo di Bayes empirico per rimuovere gli effetti dovuti ai diversi laboratori. In conclusione, costruiamo un modello di classificazione utilizzando sia le informazioni genetiche che cliniche di ciascun paziente, confrontando i diversi classificatori di Machine Learning con 10-fold cross-validation. Questa procedura è, in seguito, perfezionata e migliorata eseguendo alcune modifiche sul programma di lavoro, risolvendo i problemi riscontrati nella costruzione dello stesso. Tra le altre cose, sono prese in considerazione e adattate al presente caso le tecniche di imputazione multipla per gestire i dati mancanti e gli algoritmi di classificazione gerarchica (Generalized Mixed Effects Tree (GMET) e Forest (GMEF)) per gestire i dati raggruppati. In conclusione, sono riportati tutti i modelli di classificazione costruiti ed è selezionato il migliore. Inoltre, nella discussione, analizziamo le criticità delle analisi eseguite e proponiamo sviluppi futuri.
File allegati
File Dimensione Formato  
Tesi_Baroni_060720.pdf

non accessibile

Dimensione 22.36 MB
Formato Adobe PDF
22.36 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/165499