Precision medicine is a novel medical framework for prevention and treatment that takes into account individual variations in genes, environment, and lifestyle. It employs individuals' unique genetic profile and DNA sequences (all sorts of extit{omics} data, i.e. genomics, proteomics, metabolomics, etc.), together with medical big data (i.e. biosignals, electronic health records, medical imaging), to determine their susceptibility to disease, the most suitable and individualized treatment, and the focused preventive strategies to adopt. From a methodological standpoint, precision medicine translates into a computational approach to functionally interpret omics and medical big data in their effect on complex phenotypic traits, to understand the genetic basis of disease etiology and develop effective biomarkers. Unfortunately, designing effective models with large-scale molecular and clinical data has been a non-trivial and seldom unsatisfactory endeavour. This is probably due to the effect of the challenges carried in particular by omics-based data, around which this Thesis is mostly centered. It is in facts in the management of the intrinsic complexity of this data type, of the complex systems it describes and the peculiar facets of precision medicine studies, that resides the main methodological contribution of this Thesis. Indeed, these rich sources of information carry characteristics (such as hyper dimensionality, small sample size, class imbalance, sparsity, spatial and functional correlation, noise, etc.) that hinder the applicability of most traditional statistical and biostatistical models and approaches based on assumptions that are now failing. Nonetheless, these methodologies are widely applied and appreciated in the medical research field because of their interpretability and robustness. Therefore, the research presented in this Thesis is devoted to the development of methodologies that construct effective extit{biological system complexity-aware representations of data}, to enhance and complement interpretable and robust statistical approaches to classification, feature selection, survival modeling or association discovery. To do that, throughout the Thesis are exploited tools from the Representation Learning, Machine Learning, Statistical Learning and Graph Theory literature, designing original approaches or combining them into novel algorithms to target specific clinical enquiries. Most of the methods described in this Thesis were indeed motivated by real-world studies with relevant precision medicine-oriented objectives, such as personalized radiotherapy treatment planning, time to diagnosis prediction for breast cancer, or the discovery of the genetic basis of COVID-19 severity. The results of these case studies will be presented and discussed, to highlight the value added by the methodological contributions of this Thesis to the clinical practice.

La Medicina di Precisione (MdP) è un nuovo approccio alla pratica medica per la prevenzione ed il trattamento delle malattie, che prende in considerazione le variazioni tra pazienti in termini di geni, ambiente e stile di vita. Questo approccio sfrutta il profilo genetico caratteristico e sequenziamento del DNA (tutti i tipi di dati chiamati “omici”, ovvero dati di genomica, proteomica, metabolomica, etc.), insieme alle banche dati mediche (ovvero segnali biologici, record elettronici, immagini diagnostiche), per determinare la predisposizione dell’individuo ad una patologia, il miglior trattamento e le strategie preventive personalizzate da mettere in campo. Da un punto di vista metodologico, la MdP si concretizza in un approccio computazionale per l’interpretazione di dati omici e big data medici in termini di effetto sui tratti fenotipici, per comprendere la base genetica delle patologie e sviluppare biomarcatori efficaci. Lo sviluppo di modelli efficaci con dati clinici e molecolari di enormi dimensionalità si è dimostrato però un obiettivo molto complesso e dai risultati spesso insoddisfacenti. Le ragioni derivano probabilmente dalle sfide legate all’uso di dati omici in particolare, che sono il principale focus di questa Tesi. Il maggiore contributo metodologico di questo lavoro risiede infatti nella gestione della complessità intrinseca di questo tipo di dati, della complessità del sistema biologico che descrivono e delle peculiarità degli studi di MdP. Infatti, questa fonte di dati possiede caratteristiche (come l’immensa dimensionalità, la ristrettezza dei campioni, lo sbilanciamento delle classi, la sparsità del dato, la correlazione spaziale e funzionale, il rumore, etc.) che rendono difficile applicare approcci statistici e biostatistici tradizionali, basati su assunzioni che perdono validità in questo contesto. Ciò nonostante, queste metodologie sono tutt’ora diffusamente applicate ed apprezzate nella ricerca clinica per la loro robustezza e interpretabilità. La ricerca presentata in questa Tesi è quindi dedicata allo sviluppo di metodologie per la costruzione di efficaci rappresentazioni dei dati che incorporino gli aspetti caratteristici del sistema biologico che essi descrivono, in modo che possano essere sfruttate dagli interpretabili e robusti approcci statistici alla classificazione, selezione delle variabili, modellazione della sopravvivenza o identificazione di associazioni. Per fare questo, nell’arco della Tesi vengono sfruttati metodi che provengono dalla letteratura del Representation Learning, Machine Learning, Statistical Learning e Teoria dei Grafi, sviluppando approcci originali, o combinandoli nella creazione di nuovi algoritmi che rispondano a specifiche domande di ricerca cliniche. Molte delle metodologie descritte in questo lavoro sono infatti state motivate da studi reali con obiettivi di MdP, come la pianificazione personalizzata della radioterapia, o lo studio della base genetica della severità di COVID-19. I risultati di questi casi di studio verranno presentati e discussi, per evidenziare il valore apportato alla pratica clinica dai contributi metodologici di questa Tesi.

Patient representations from complex biological systems for Precision Medicine

Massi, Michela Carlotta
2021/2022

Abstract

Precision medicine is a novel medical framework for prevention and treatment that takes into account individual variations in genes, environment, and lifestyle. It employs individuals' unique genetic profile and DNA sequences (all sorts of extit{omics} data, i.e. genomics, proteomics, metabolomics, etc.), together with medical big data (i.e. biosignals, electronic health records, medical imaging), to determine their susceptibility to disease, the most suitable and individualized treatment, and the focused preventive strategies to adopt. From a methodological standpoint, precision medicine translates into a computational approach to functionally interpret omics and medical big data in their effect on complex phenotypic traits, to understand the genetic basis of disease etiology and develop effective biomarkers. Unfortunately, designing effective models with large-scale molecular and clinical data has been a non-trivial and seldom unsatisfactory endeavour. This is probably due to the effect of the challenges carried in particular by omics-based data, around which this Thesis is mostly centered. It is in facts in the management of the intrinsic complexity of this data type, of the complex systems it describes and the peculiar facets of precision medicine studies, that resides the main methodological contribution of this Thesis. Indeed, these rich sources of information carry characteristics (such as hyper dimensionality, small sample size, class imbalance, sparsity, spatial and functional correlation, noise, etc.) that hinder the applicability of most traditional statistical and biostatistical models and approaches based on assumptions that are now failing. Nonetheless, these methodologies are widely applied and appreciated in the medical research field because of their interpretability and robustness. Therefore, the research presented in this Thesis is devoted to the development of methodologies that construct effective extit{biological system complexity-aware representations of data}, to enhance and complement interpretable and robust statistical approaches to classification, feature selection, survival modeling or association discovery. To do that, throughout the Thesis are exploited tools from the Representation Learning, Machine Learning, Statistical Learning and Graph Theory literature, designing original approaches or combining them into novel algorithms to target specific clinical enquiries. Most of the methods described in this Thesis were indeed motivated by real-world studies with relevant precision medicine-oriented objectives, such as personalized radiotherapy treatment planning, time to diagnosis prediction for breast cancer, or the discovery of the genetic basis of COVID-19 severity. The results of these case studies will be presented and discussed, to highlight the value added by the methodological contributions of this Thesis to the clinical practice.
LANZI, PIERLUCA
SECCHI, PIERCESARE
PAMMOLLI, FABIO
4-mag-2022
Patient representations from complex biological systems for Precision Medicine
La Medicina di Precisione (MdP) è un nuovo approccio alla pratica medica per la prevenzione ed il trattamento delle malattie, che prende in considerazione le variazioni tra pazienti in termini di geni, ambiente e stile di vita. Questo approccio sfrutta il profilo genetico caratteristico e sequenziamento del DNA (tutti i tipi di dati chiamati “omici”, ovvero dati di genomica, proteomica, metabolomica, etc.), insieme alle banche dati mediche (ovvero segnali biologici, record elettronici, immagini diagnostiche), per determinare la predisposizione dell’individuo ad una patologia, il miglior trattamento e le strategie preventive personalizzate da mettere in campo. Da un punto di vista metodologico, la MdP si concretizza in un approccio computazionale per l’interpretazione di dati omici e big data medici in termini di effetto sui tratti fenotipici, per comprendere la base genetica delle patologie e sviluppare biomarcatori efficaci. Lo sviluppo di modelli efficaci con dati clinici e molecolari di enormi dimensionalità si è dimostrato però un obiettivo molto complesso e dai risultati spesso insoddisfacenti. Le ragioni derivano probabilmente dalle sfide legate all’uso di dati omici in particolare, che sono il principale focus di questa Tesi. Il maggiore contributo metodologico di questo lavoro risiede infatti nella gestione della complessità intrinseca di questo tipo di dati, della complessità del sistema biologico che descrivono e delle peculiarità degli studi di MdP. Infatti, questa fonte di dati possiede caratteristiche (come l’immensa dimensionalità, la ristrettezza dei campioni, lo sbilanciamento delle classi, la sparsità del dato, la correlazione spaziale e funzionale, il rumore, etc.) che rendono difficile applicare approcci statistici e biostatistici tradizionali, basati su assunzioni che perdono validità in questo contesto. Ciò nonostante, queste metodologie sono tutt’ora diffusamente applicate ed apprezzate nella ricerca clinica per la loro robustezza e interpretabilità. La ricerca presentata in questa Tesi è quindi dedicata allo sviluppo di metodologie per la costruzione di efficaci rappresentazioni dei dati che incorporino gli aspetti caratteristici del sistema biologico che essi descrivono, in modo che possano essere sfruttate dagli interpretabili e robusti approcci statistici alla classificazione, selezione delle variabili, modellazione della sopravvivenza o identificazione di associazioni. Per fare questo, nell’arco della Tesi vengono sfruttati metodi che provengono dalla letteratura del Representation Learning, Machine Learning, Statistical Learning e Teoria dei Grafi, sviluppando approcci originali, o combinandoli nella creazione di nuovi algoritmi che rispondano a specifiche domande di ricerca cliniche. Molte delle metodologie descritte in questo lavoro sono infatti state motivate da studi reali con obiettivi di MdP, come la pianificazione personalizzata della radioterapia, o lo studio della base genetica della severità di COVID-19. I risultati di questi casi di studio verranno presentati e discussi, per evidenziare il valore apportato alla pratica clinica dai contributi metodologici di questa Tesi.
File allegati
File Dimensione Formato  
Massi_PhD_Thesis_DADS2022.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Manuscript
Dimensione 61.8 MB
Formato Adobe PDF
61.8 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/186828