Predictive models have a pervasive role in many daily applications. The increasing amount of generated and shared data has recently boosted their development, shifting the model generation and improvement focus towards a data-centric approach. As a result, an information system that manages these data defines what can effectively discovered from them. Predictive models are also used in scientific domains to simulate complex real-world systems, replacing costly and time-consuming experiments. However, the unique characteristics of the scientific data and domain requirements, such as experimental uncertainty, low data quality, and confidentiality, make applying traditional methodologies to share and leverage the data challenging. This interdisciplinary research investigates, as a whole, the development process of a scientific predictive model and how it can be improved by adopting data ecosystem and data science technologies. This thesis focuses on the following requirements: 1) identification of the predictive model development process, classification of scientific data, and their properties, 2) the design of a sustainable data ecosystem to support a quality process, 3) the definition of an effective model evaluation methodology, 4) the use of appropriate data science techniques to guide the improvement and development of scientific predictive models. These requirements and challenges are valid across multiple scientific domains, but the interdisciplinarity of this thesis focuses on a case study of the chemical kinetics field. First, I investigate the current model development process, analyzing the typical steps, the data, and the roles involved. Then, I propose a data ecosystem that offers the necessary services and addresses the unique scientific data properties and domain requirements as data governance and management aspects while fulfilling the open data guidelines. Finally, the proposed solution is generalized with a set of challenges for designing and adopting sustainable data ecosystems and managing quality data in scientific domains. This thesis presents a systematic, objective, and automatic evaluation methodology for scientific predictive models while handling uncertainties, allowing replicability and awareness of the results with provenance information and fair validation. Finally, it discusses how the results of the model evaluation analysis can inform model improvement and generation. To this end, appropriate data science techniques are used and developed.

I modelli predittivi hanno un ruolo pervasivo in molte applicazioni quotidiane. La crescente quantità di dati generati e condivisi ha recentemente incentivato il loro sviluppo, spostando l'attenzione sul miglioramento dei modelli verso un approccio incentrato sui dati. Di conseguenza, un sistema informativo che gestisce questi dati definisce ciò che può essere effettivamente scoperto da essi. I modelli predittivi sono utilizzati anche in ambito scientifico per simulare sistemi complessi del mondo reale, sostituendo esperimenti costosi e dispendiosi in termini di tempo. Tuttavia, le caratteristiche uniche dei dati scientifici e i requisiti del dominio, come l'incertezza sperimentale, la bassa qualità dei dati e la riservatezza, rendono difficile l'applicazione delle metodologie tradizionali per condividere e sfruttare i dati. Questa ricerca interdisciplinare studia, nel suo complesso, il processo di sviluppo di un modello predittivo scientifico e come può essere migliorato adottando le tecnologie dell'ecosistema dei dati e della scienza dei dati. Questa tesi si concentra sui seguenti requisiti: 1) l'identificazione del processo di sviluppo di un modello predittivo, la classificazione dei dati scientifici e le loro proprietà, 2) la progettazione di un ecosistema di dati sostenibile per supportare un processo di qualità, 3) la definizione di una metodologia efficace di valutazione del modello, 4) l'uso di tecniche di data science appropriate per guidare il miglioramento e lo sviluppo di modelli predittivi scientifici. Questi requisiti e sfide sono validi in diversi ambiti scientifici, ma l'interdisciplinarità di questa tesi si concentra su un caso di studio nel campo della cinetica chimica. In primo luogo, analizzo l'attuale processo di sviluppo dei modelli, analizzando le fasi tipiche, i dati e i ruoli coinvolti. Quindi, propongo un ecosistema di dati che offre i servizi necessari e affronta le proprietà uniche dei dati scientifici e i requisiti del dominio, come gli aspetti di governance e gestione dei dati, soddisfacendo le linee guida sui dati aperti, come i principi FAIR. Infine, la soluzione proposta viene generalizzata con una serie di sfide per la progettazione e l'adozione di ecosistemi di dati sostenibili e la gestione di dati di qualità nei domini scientifici. Questa tesi presenta e discute una metodologia di valutazione sistematica, oggettiva e automatica per i modelli scientifici predittivi, gestendo le incertezze, consentendo la replicabilità e la consapevolezza dei risultati con informazioni di provenienza e un'equa validazione. Infine, presenta come i risultati dell'analisi di valutazione del modello possano informare il miglioramento o la generazione del modello. A tal fine, vengono utilizzate e sviluppate tecniche appropriate di scienza dei dati.

Data ecosystems and data science for scientific data

RAMALLI, EDOARDO
2023/2024

Abstract

Predictive models have a pervasive role in many daily applications. The increasing amount of generated and shared data has recently boosted their development, shifting the model generation and improvement focus towards a data-centric approach. As a result, an information system that manages these data defines what can effectively discovered from them. Predictive models are also used in scientific domains to simulate complex real-world systems, replacing costly and time-consuming experiments. However, the unique characteristics of the scientific data and domain requirements, such as experimental uncertainty, low data quality, and confidentiality, make applying traditional methodologies to share and leverage the data challenging. This interdisciplinary research investigates, as a whole, the development process of a scientific predictive model and how it can be improved by adopting data ecosystem and data science technologies. This thesis focuses on the following requirements: 1) identification of the predictive model development process, classification of scientific data, and their properties, 2) the design of a sustainable data ecosystem to support a quality process, 3) the definition of an effective model evaluation methodology, 4) the use of appropriate data science techniques to guide the improvement and development of scientific predictive models. These requirements and challenges are valid across multiple scientific domains, but the interdisciplinarity of this thesis focuses on a case study of the chemical kinetics field. First, I investigate the current model development process, analyzing the typical steps, the data, and the roles involved. Then, I propose a data ecosystem that offers the necessary services and addresses the unique scientific data properties and domain requirements as data governance and management aspects while fulfilling the open data guidelines. Finally, the proposed solution is generalized with a set of challenges for designing and adopting sustainable data ecosystems and managing quality data in scientific domains. This thesis presents a systematic, objective, and automatic evaluation methodology for scientific predictive models while handling uncertainties, allowing replicability and awareness of the results with provenance information and fair validation. Finally, it discusses how the results of the model evaluation analysis can inform model improvement and generation. To this end, appropriate data science techniques are used and developed.
PIRODDI, LUIGI
MARTINENGHI, DAVIDE
FARAVELLI, TIZIANO
22-gen-2024
Data ecosystems and data science for scientific data
I modelli predittivi hanno un ruolo pervasivo in molte applicazioni quotidiane. La crescente quantità di dati generati e condivisi ha recentemente incentivato il loro sviluppo, spostando l'attenzione sul miglioramento dei modelli verso un approccio incentrato sui dati. Di conseguenza, un sistema informativo che gestisce questi dati definisce ciò che può essere effettivamente scoperto da essi. I modelli predittivi sono utilizzati anche in ambito scientifico per simulare sistemi complessi del mondo reale, sostituendo esperimenti costosi e dispendiosi in termini di tempo. Tuttavia, le caratteristiche uniche dei dati scientifici e i requisiti del dominio, come l'incertezza sperimentale, la bassa qualità dei dati e la riservatezza, rendono difficile l'applicazione delle metodologie tradizionali per condividere e sfruttare i dati. Questa ricerca interdisciplinare studia, nel suo complesso, il processo di sviluppo di un modello predittivo scientifico e come può essere migliorato adottando le tecnologie dell'ecosistema dei dati e della scienza dei dati. Questa tesi si concentra sui seguenti requisiti: 1) l'identificazione del processo di sviluppo di un modello predittivo, la classificazione dei dati scientifici e le loro proprietà, 2) la progettazione di un ecosistema di dati sostenibile per supportare un processo di qualità, 3) la definizione di una metodologia efficace di valutazione del modello, 4) l'uso di tecniche di data science appropriate per guidare il miglioramento e lo sviluppo di modelli predittivi scientifici. Questi requisiti e sfide sono validi in diversi ambiti scientifici, ma l'interdisciplinarità di questa tesi si concentra su un caso di studio nel campo della cinetica chimica. In primo luogo, analizzo l'attuale processo di sviluppo dei modelli, analizzando le fasi tipiche, i dati e i ruoli coinvolti. Quindi, propongo un ecosistema di dati che offre i servizi necessari e affronta le proprietà uniche dei dati scientifici e i requisiti del dominio, come gli aspetti di governance e gestione dei dati, soddisfacendo le linee guida sui dati aperti, come i principi FAIR. Infine, la soluzione proposta viene generalizzata con una serie di sfide per la progettazione e l'adozione di ecosistemi di dati sostenibili e la gestione di dati di qualità nei domini scientifici. Questa tesi presenta e discute una metodologia di valutazione sistematica, oggettiva e automatica per i modelli scientifici predittivi, gestendo le incertezze, consentendo la replicabilità e la consapevolezza dei risultati con informazioni di provenienza e un'equa validazione. Infine, presenta come i risultati dell'analisi di valutazione del modello possano informare il miglioramento o la generazione del modello. A tal fine, vengono utilizzate e sviluppate tecniche appropriate di scienza dei dati.
File allegati
File Dimensione Formato  
Ph_D__Thesis___Edoardo-Ramalli.pdf

accessibile in internet per tutti

Descrizione: Ph.D. Thesis - Edoardo Ramalli
Dimensione 5.69 MB
Formato Adobe PDF
5.69 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/216452