Machine learning for precision medicine : a combination of data-driven and physics based models

Precision medicine aims at improving the clinical treatment of patients by proposing subject-specific therapies, which are designed on the basis of individual characteristics, such as age and lifestyle, but also more complicated biological features. To this end, precision medicine mostly relies on biomarkers, complex indicators that characterize the genotype and phenotype of a patient. In pratical applications, such biomarkers are commonly derived by synthesizing the information coming from both data-driven and physics based models. The aim of this Thesis is to explore a unified framework for quantitative methods in precision medicine, leveraging on Machine Learning tools. In particular, we focus on the case of personalized treatment planning of radiotherapy. Recently, many new research lines are being explored in this field, two of which are the main focus of this Thesis. The first one concerns the study of radiosensitivity as a genetic trait, and thus aims at identifying the genetic mutations associated with late toxicity in order to build suitable predictive biomarkers. The second line of research, instead, consists in the analysis of the cellular response to radiation by means of accurate and extensive numerical simulations. Both approaches present significant challenges, which in this Thesis are addressed through the development of new Machine Learning and Deep Learning algorithms. In the first part of the Thesis, we focus on studying the connection between late toxicity and mutations in the DNA. There, the main difficulties arise from the presence of complex interactions among genetic loci and from the intrinsic class imbalance characterizing clinical data. To tackle these adversities, we take advantage of different Machine Learning tools, from deep autoencoders to data mining algorithms, ultimately developing a novel approach to polygenic risk scoring that enables the construction of interpretable interaction-aware biomarkers. Throughout the Thesis, we assess the scientific value of the proposed approach on both simulated and real data, showcasing the impact of our work on the clinical world. Conversely, in the second part of the dissertation, we discuss how Deep Learning can be used to reduce the computational cost entailed by the numerical simulation of biophysical models relevant for radiotherapy, such as oxygen transfer models. In particular, we develop several strategies based on Deep Learning algorithms for replacing the original numerical solver with a cheaper, yet accurate, surrogate model. Thanks to these tools, the computational bottleneck entailed by using physics based numerical simulations in the complex workflow of biomarker discovery and validation can be completely resolved. From the methodological and, in particular, the mathematical standpoint, the proposed approaches are inspired by the flourishing literature of Reduced Order Modeling, but they also share unique benefits that distinguish them from state-of-art techniques, such as the ability of handling singularities, transport and mass propagation, in an extremely efficient way. In order to make our proposal mathematically sound, we also derive innovative theoretical results that support our reasoning. In particular, the Thesis contains innovative results about the latent dimension of autoencoders and the properties of convolutional neural networks. Finally, as a by-product of our studies, we also end up developing completely new tools, such as mesh-informed architectures, that, for their generality, stand out as independent topics of research.

La medicina di precisione nasce con l'obiettivo di perfezionare i trattamenti clinici proponendo l'utilizzo di terapie personalizzate, le quali possono essere definite sulla base di caratteristiche individuali più o meno semplici, quali l'età e lo stile di vita, nonché altre caratteristiche biologiche più complesse. Per fare ciò, la medicina di precisione si affida principalmente ai biomarcatori, indicatori complessi in grado di sintetizzare il genotipo ed il fenotipo del paziente. Nella pratica, tali biomarcatori vengono generalmente ottenuti attraverso la sintesi di svariate fonti d'informazione, le quali possono provenire da dati sperimentali o da modelli fisico-matematici. L'obiettivo di questa Tesi è quello di esplorare un contesto unificato dove sviluppare metodi quantitativi per la medicina di precisione, facendo leva, nello specifico, sugli strumenti offerti dal mondo del Machine Learning. Particolare attenzione è dedita alla personalizzazione dei trattamenti radioterapici, un settore che ha recentemente visto la nascita e lo sviluppo di diverse linee di ricerca, due delle quali costituiscono il focus principale di questa Tesi. La prima concerne lo studio della radiosensitività come tratto genetico, e mira dunque ad identificare quelle mutazioni genetiche che sono associate all'insorgenza della tossicità tardiva, con il fine ultimo di produrre opportuni biomarcatori predittivi della radiotossicità. La seconda linea di ricerca, invece, consiste nell'analisi della risposta cellulare alla radiazione, analisi resa possibile da un uso mirato ed estensivo di simulazioni numeriche altamenta accurate. Entrambi gli approcci presentano sfide particolarmente significative, le quali, all'interno di questa Tesi, vengono affrontate attraverso lo sviluppo di nuove tecniche di Machine Learning e di Deep Learning. La prima parte della Tesi è focalizzata sullo studio del legame che sussiste tra tossicità tardiva e mutazioni del DNA. In questo contesto, le difficoltà principali nascono dal complesso meccanismo che regola l'interazione tra loci genetici, nonché dall'intrinseco sbilanciamento tipico del dato clinico. Nella Tesi, queste problematiche vengono affrontate adoperando svariati strumenti di Machine Learning, a partire dalle reti neurali autocodificanti fino agli algoritmi di estrazione dei dati. In definitiva, l'analisi messa in atto si configura nello sviluppo di un nuovo approccio al calcolo dei punteggi di rischio poligenico, portando, in ultima analisi, alla costruzione di biomarcatori capaci di preservare l'interpretabilità clinica e la capacità predittiva. Nel corso della Tesi, la metodologia proposta viene testata su dati reali afferenti ad un caso clinico ben preciso, nonché su diversi studi di simulazione, volendo così dimostrare come, in potenza, il lavoro presentato possa avere un riscontro immediato sul mondo clinico ed ospedaliero. Nella seconda parte del trattato, invece, si discute di come le tecniche di Deep Learning possano coadiuvare la simulazione numerica di modelli biofisici utili alla radioterapia, quali i modelli di microcircolazione dell'ossigeno, grazie ad una sostanziale riduzione dei costi computazionali. Più precisamente, all'interno della Tesi, vengono sviluppate diverse strategie basate su algoritmi di Deep Learning, volte a rimpiazzare i solutori numerici con opportuni modelli surrogati, i quali possano essere meno dispendiosi ma, al contempo, sufficientemente accurati. Grazie a questi strumenti, l'onere computazionale implicato dall'utilizzo delle simulazioni numeriche nel complesso processo di ricerca e validazione dei biomarcatori, può essere completamente risolto. Da un punto di vista prettamente metodologico e matematico, gli approcci proposti trovano ispirazione nella fiorente letteratura sulla Riduzione di Ordine di Modello; tuttavia, tali approcci godono anche di proprietà uniche che li distinguono dallo stato dell'arte, quali l'abilità di gestire in maniera estremamente efficiente fenomeni come il trasporto e la propagazione di massa, nonché la presenza di singolarità. Nel presentare tali approcci, particolare enfasi viene riposta nella loro controparte teorica, la quale, in più circostanze, viene avvalorata da opportune considerazioni matematiche. In particolare, la Tesi contiene diversi risultati innovativi sulla dimensione latente delle reti autocodificanti e sulle proprietà delle reti neurali convoluzionali. Infine, sulla scia dell'analisi proposta, vengono anche sviluppati strumenti interamente nuovi, quali le architetture neurali mesh-informed (letteralmente: "informate dalla griglia"): questi strumenti, in luce della loro generalità, possono essere considerati argomento indipendente di ricerca.