Uncertainty propagation in experimental data pipelines

Data analysis has become a crucial process in various scientific fields, as the increasing availability of technological tools facilitates decision-making through data-driven models. The complex task of processing data leading to final decisions is often implemented in multi-stage pipelines, each assigned to handle different stages of data manipulation. In scientific contexts, it is common to build models to abstract physical phenomena using experimental data from different experiments. However, experimental data are often uncertain and irreproducible, and their processing within pipelines is necessary for the construction of reliable models. As a result, data preparation techniques have been employed and refined over the years to improve Data Quality, which is critical to obtaining a good model. This thesis proposes an approach aimed at the artificial generation of uncertainty in data through Fault Injection, a common method in the field of Data Quality. Uncertain data is then given as input to a multi-stage pipeline, and the ambiguity generated in the output is quantified. Uncertainty propagation is evaluated, showing the relationship between uncertainty-generating factors and ambiguity in the output. The case study of this work focuses on the complex multi-stage pipeline of the Curve Matching (CM) framework, which measures the similarity between two curves and assesses the agreement between experimental data and corresponding simulation obtained from model prediction. CM is characterized by ambiguity, which is due to the randomness of some processes, uncertainty, and Data Quality issues. Thus, this thesis aims to help the pipeline user understand the sources generating ambiguities and their impact on the pipeline and each stage. The proposed approach quantifies the impact of Fault Injection on both individual stages and the entire pipeline, providing a comprehensive analysis of the impact and propagation of uncertainty generated by various factors. The analysis tool developed through this thesis will help the pipeline user understand the robustness of the results against different uncertainty and Data Quality conditions in the experimental data.

L'analisi dei dati è diventata un processo cruciale in vari campi scientifici, poiché la crescente disponibilità di strumenti tecnologici facilita il processo decisionale attraverso modelli basati sui dati. La complessa attività di elaborazione dei dati che porta alle decisioni finali è spesso implementata in pipeline a più stadi, ognuno dei quali è incaricato di gestire diverse fasi di manipolazione dei dati. Nei contesti scientifici, è comune costruire modelli per astrarre i fenomeni fisici utilizzando dati sperimentali provenienti da esperimenti diversi. Tuttavia, i dati sperimentali sono spesso incerti e irriproducibili e la loro elaborazione all'interno di pipeline è necessaria per la costruzione di modelli affidabili. Di conseguenza, tecniche di preparazione dei dati sono state impiegate e perfezionate nel corso degli anni per migliorare la qualità dei dati, che è fondamentale per ottenere un buon modello. Questa tesi propone un approccio finalizzato alla generazione artificiale di incertezza nei dati attraverso la Fault Injection, un metodo comune nel campo della Data Quality. I dati incerti vengono quindi dati in ingresso a una pipeline a più stadi e l'ambiguità generata nell'output viene quantificata. Viene valutata la propagazione dell'incertezza, mostrando la relazione tra i fattori che generano incertezza e l'ambiguità in uscita. Il caso di studio di questo lavoro si concentra sulla complessa pipeline multi-stadio del framework Curve Matching (CM), che misura la somiglianza tra due curve e valuta l'accordo tra i dati sperimentali e la simulazione corrispondente ottenuta dalla previsione del modello. Il CM è caratterizzato da ambiguità, dovuta alla casualità di alcuni processi, all'incertezza e a problemi di qualità dei dati. Pertanto, questa tesi si propone di aiutare l'utente della pipeline a comprendere le fonti che generano ambiguità e il loro impatto sulla pipeline e su ciascuna fase. L'approccio proposto quantifica l'impatto della Fault Injection sia sulle singole fasi che sull'intera pipeline, fornendo un'analisi completa dell'impatto e della propagazione dell'incertezza generata da vari fattori. Lo strumento di analisi sviluppato in questa tesi aiuterà l'utente della pipeline a comprendere la robustezza dei risultati rispetto a diverse condizioni di incertezza e qualità dei dati sperimentali.