Managing scientific data, such as those found in the chemical and biomedical research, poses unique and challenging problems. Unique features characterize this data, including the impossibility of representing reality on a one-to-one scale, the imprecision in the observations and quality limitations introduced by technologies and models that continuously evolve. This is an interdisciplinary research that, as a whole, investigates the management and the analysis of scientific data focusing on the challenges emerging in fields such as chemistry, genomics and biomedical research. For this work, we focus on data-driven – including machine learning-driven – techniques to face a set of identified requirements: 1) the management of uncertainty for complex data and models such as deep neural networks, 2) the estimation of system properties starting from imprecise, low-volume and evolving data, 3) the continuous validation of scientific models through large-scale comparisons with experimental data and 4) the unsupervised integration of multiple heterogeneous data sources related to different technologies to overcome individual technological limitations. Common to virtually all fields driven by experimental data, these requirements are faced through a set of case studies on different applications in chemistry, biology, and genomics. Uncertainty estimation and evaluation is investigated in the context of deep neural network-based molecular property prediction. To this end, we develop a scalable Bayesian graph convolutional neural network for molecular property prediction and an uncertainty evaluation framework to assess the resulting estimates. We investigate the problem of estimating the properties of biological systems starting from low-volume and imprecise experimental data, proposing a machine learning-driven methodology to find the optimal way of transferring information in a molecular channel using collected experiments. The design of a framework to support the development of scientific models through the continuous validation on integrated scientific experiments is presented, with the discussion of an architecture and the development of a prototype in this direction. Finally, the unsupervised integration of heterogeneous data sources related to different technologies and with varying quality is explored, proposing a methodology to learn spatially-resolved whole transcriptomes of single cells through integration, starting from datasets measured with complementary transcriptomics technologies. Extensive experiments based on in-vitro and in-silico data allow validating and discussing the proposed methodologies.

La gestione dei dati scientifici, come quelli che caratterizzano il dominio della ricerca chimica e biomedica, porta con sé importanti sfide. Questo tipo di dati ha caratteristiche peculiari, che includono l’impossibilità di rappresentare la realtà dei processi sottostanti in maniera esatta, l’imprecisione nelle osservazioni e limitazioni sulla qualità dei dati introdotte da tecnologie e modelli in continua evoluzione. Questa è una ricerca interdisciplinare che, nel suo insieme, indaga la gestione e l’analisi dei dati scientifici focalizzandosi sulle sfide che emergono in domini come quello chimico, della genomica e della ricerca biomedica. A questo scopo, ci focalizziamo su tecniche data-driven – includendo in particolare quelle basate su machine learning – per affrontare un insieme di requisiti: 1) la gestione dell’incertezza per dati e modelli complessi, in particolare quelli basati su deep neural networks, 2) la stima di proprietà di sistemi partendo da dati imprecisi, scarsi e in continua evoluzione, 3) la validazione di modelli scientifici attraverso comparazioni su larga scala con dati sperimentali e 4) l’integrazione non supervisionata di fonti eterogenee di dati relative a diverse tecnologie per superare le limitazioni di ogni singola tecnologia. Comuni a tutti i campi caratterizzati da una centralità dei dati sperimentali, questi requisiti sono studiati tramite una serie di casi studio su diverse applicazioni nel dominio chimico, biologico e della genomica. La stima e la valutazione dell’incertezza è studiata nel contesto della predizione di proprietà chimiche tramite deep neural networks. A questo scopo, si è sviluppata una graph convolutional neural network bayesiana per la predizione di proprietà chimiche e un framework per la valutazione delle incertezze risultanti. Si è investigato il problema della stima di proprietà di sistemi biologici partendo da dati sperimentali scarsi ed imprecisi, proponendo una metodologia basata su machine learning per trovare il mezzo ottimale di trasferire informazione in un canale molecolare attraverso i dati sperimentali disponibili. Si presenta un framework per supportare lo sviluppo di modelli scientifici attraverso la loro validazione continua con dati sperimentali integrati, e si discute un’architettura e lo sviluppo di un prototipo in questa direzione. Infine, si esplora l’integrazione non supervisionata di fonti eterogenee di dati relative a diverse tecnologie e caratterizzate da una qualità variabile, proponendo una metodologia per apprendere trascrittomi completi, spazialmente collocati e alla massima risoluzione, partendo da dati misurati con tecnologie complementari. Una approfondita valutazione sperimentale basata su dati in-vitro ed in-silico ha permesso di validare e discutere le metodologie proposte.

Machine learning-driven integration, knowledge extraction and uncertainty management for scientific data

Scalia, Gabriele
2020/2021

Abstract

Managing scientific data, such as those found in the chemical and biomedical research, poses unique and challenging problems. Unique features characterize this data, including the impossibility of representing reality on a one-to-one scale, the imprecision in the observations and quality limitations introduced by technologies and models that continuously evolve. This is an interdisciplinary research that, as a whole, investigates the management and the analysis of scientific data focusing on the challenges emerging in fields such as chemistry, genomics and biomedical research. For this work, we focus on data-driven – including machine learning-driven – techniques to face a set of identified requirements: 1) the management of uncertainty for complex data and models such as deep neural networks, 2) the estimation of system properties starting from imprecise, low-volume and evolving data, 3) the continuous validation of scientific models through large-scale comparisons with experimental data and 4) the unsupervised integration of multiple heterogeneous data sources related to different technologies to overcome individual technological limitations. Common to virtually all fields driven by experimental data, these requirements are faced through a set of case studies on different applications in chemistry, biology, and genomics. Uncertainty estimation and evaluation is investigated in the context of deep neural network-based molecular property prediction. To this end, we develop a scalable Bayesian graph convolutional neural network for molecular property prediction and an uncertainty evaluation framework to assess the resulting estimates. We investigate the problem of estimating the properties of biological systems starting from low-volume and imprecise experimental data, proposing a machine learning-driven methodology to find the optimal way of transferring information in a molecular channel using collected experiments. The design of a framework to support the development of scientific models through the continuous validation on integrated scientific experiments is presented, with the discussion of an architecture and the development of a prototype in this direction. Finally, the unsupervised integration of heterogeneous data sources related to different technologies and with varying quality is explored, proposing a methodology to learn spatially-resolved whole transcriptomes of single cells through integration, starting from datasets measured with complementary transcriptomics technologies. Extensive experiments based on in-vitro and in-silico data allow validating and discussing the proposed methodologies.
PERNICI, BARBARA
TANCA, LETIZIA
FARAVELLI, TIZIANO
29-gen-2021
La gestione dei dati scientifici, come quelli che caratterizzano il dominio della ricerca chimica e biomedica, porta con sé importanti sfide. Questo tipo di dati ha caratteristiche peculiari, che includono l’impossibilità di rappresentare la realtà dei processi sottostanti in maniera esatta, l’imprecisione nelle osservazioni e limitazioni sulla qualità dei dati introdotte da tecnologie e modelli in continua evoluzione. Questa è una ricerca interdisciplinare che, nel suo insieme, indaga la gestione e l’analisi dei dati scientifici focalizzandosi sulle sfide che emergono in domini come quello chimico, della genomica e della ricerca biomedica. A questo scopo, ci focalizziamo su tecniche data-driven – includendo in particolare quelle basate su machine learning – per affrontare un insieme di requisiti: 1) la gestione dell’incertezza per dati e modelli complessi, in particolare quelli basati su deep neural networks, 2) la stima di proprietà di sistemi partendo da dati imprecisi, scarsi e in continua evoluzione, 3) la validazione di modelli scientifici attraverso comparazioni su larga scala con dati sperimentali e 4) l’integrazione non supervisionata di fonti eterogenee di dati relative a diverse tecnologie per superare le limitazioni di ogni singola tecnologia. Comuni a tutti i campi caratterizzati da una centralità dei dati sperimentali, questi requisiti sono studiati tramite una serie di casi studio su diverse applicazioni nel dominio chimico, biologico e della genomica. La stima e la valutazione dell’incertezza è studiata nel contesto della predizione di proprietà chimiche tramite deep neural networks. A questo scopo, si è sviluppata una graph convolutional neural network bayesiana per la predizione di proprietà chimiche e un framework per la valutazione delle incertezze risultanti. Si è investigato il problema della stima di proprietà di sistemi biologici partendo da dati sperimentali scarsi ed imprecisi, proponendo una metodologia basata su machine learning per trovare il mezzo ottimale di trasferire informazione in un canale molecolare attraverso i dati sperimentali disponibili. Si presenta un framework per supportare lo sviluppo di modelli scientifici attraverso la loro validazione continua con dati sperimentali integrati, e si discute un’architettura e lo sviluppo di un prototipo in questa direzione. Infine, si esplora l’integrazione non supervisionata di fonti eterogenee di dati relative a diverse tecnologie e caratterizzate da una qualità variabile, proponendo una metodologia per apprendere trascrittomi completi, spazialmente collocati e alla massima risoluzione, partendo da dati misurati con tecnologie complementari. Una approfondita valutazione sperimentale basata su dati in-vitro ed in-silico ha permesso di validare e discutere le metodologie proposte.
File allegati
File Dimensione Formato  
thesis_final.pdf

solo utenti autorizzati dal 05/01/2022

Descrizione: Thesis
Dimensione 30.01 MB
Formato Adobe PDF
30.01 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/177059