Exploring data preparation strategies for data stream analysis

Data streams are gaining increasing importance, particularly in applications like the Internet of Things, Edge computing, and Industry 4.0. Analyzing these data streams accurately necessitates the highest possible data quality. Data retrieved from sensors or other sources may contain faults, errors, or missing values, making it preferable to correct them before applying any analysis tool, such as a machine learning model. This thesis aims to improve an existing framework for preparing data. Currently, the framework uses a knowledge base to recommend the most appropriate data preparation actions after conducting data profiling and data quality assessment. The introduced improvements aim to expand the scope of manageable data sources, specifically incorporating the handling of data streams. The goal is to investigate the adaptability of techniques designed for tabular datasets in the context of data streams. The dynamic nature of data streams requires the implementation of appropriate techniques, such as an incremental, continuous or windowed approach. This will optimise efficiency and decrease latency. The initial step involves incrementally performing data profiling and conducting a windowed data quality assessment, offering a real-time perspective on stream attributes. Subsequently, the knowledge base utilized for suggestions is enriched by integrating techniques specifically tailored for data streams. The selection of these data preparation actions is guided by experimental sessions that assess the impact of outlier detection and data imputation methods on machine learning predictions. The experiments yielded distinctive results, and they were used to analyse the behaviour of data streams at different quality levels.

I flussi di dati, noti come data streams, rivestono un’importanza sempre crescente, specialmente nei settori dell’Internet of Things, dell’Edge Computing e dell’Industria 4.0. L’analisi accurata di tali flussi richiede che i dati siano caratterizzati da una qualità elevata. I dati raccolti da sensori e da altre fonti possono presentare errori o valori mancanti, pertanto risulta preferibile correggerli prima di sottoporli a qualsiasi strumento di analisi, come ad esempio i modelli di machine learning. Il presente lavoro di tesi si propone di perfezionare un framework preesistente per la preparazione dei dati. Attualmente il framework utilizza una knowledge base per suggerire le azioni più adeguate, in seguito a una valutazione della qualità dei dati. Le migliorie introdotte mirano all’espansione delle fonti dati gestibili, con particolare attenzione allo sviluppo dei data streams. La dinamicità dei data stream richiede l’implementazione di techniche appropriate, utilizzando un approcio incrementale, continuo o a finestre, per ottimizzare l’efficienza e diminuire la latenza. Il primo compito svolto riguarda l’esecuzione incrementale di data profiling e la valutazione della qualità dei dati, che consentono di ottenere una visione in tempo reale degli attributi del flusso di dati. Successivamente, la knowledge base utilizzata per i suggerimenti è stata arricchita mediante l’integrazione di metodi specificamente progettati per i data streams. La selezione di tali metodi è stata orientata da esperimenti volti ad esaminare l’impatto delle tecniche di outlier detection e data imputation sulle previsioni dei modelli di machine learning. Gli esperimenti hanno prodotto risultati peculiari, i quali sono stati utilizzati per analizzare il comportamento dei data stream a diversi livelli di qualità. Tali risultati, tuttavia, sono influenzati dalla scelta del modello di machine learning adottato.