Toward knowledge-driven design of data preparation pipelines

Data-centric Artificial Intelligence (AI) has recently emerged as a new paradigm that emphasizes the importance of high-quality data for obtaining reliable results in data science pipelines. This new perspective has recently shifted the focus of the AI research field from model-centric approaches, which were primarily aimed at refining models to optimize their performance, to a data-centric view, which promotes the dynamic improvement of data using an iterative and systematic approach. From this novel perspective, the data preparation phase becomes a critical and even the most important phase of the data science pipeline. A typical data preparation pipeline involves exploration, profiling, and cleaning activities aimed at ensuring that the dataset quality is aligned with the analysis requirements. Despite its fundamental role, data preparation remains one of the most complex, time-consuming, and demanding phases of data science pipelines. Users often struggle to properly recognize a variety of different data quality errors and address them by selecting the right data preparation techniques from the plethora of available ones. This thesis addresses three major research gaps that limit the effectiveness of current approaches that support the data preparation phase of AI pipelines. First, most existing tools adopt fully automated solutions that offer limited transparency, user control, and interactivity. This reduces the interpretability and trustworthiness of the employed tools, especially for non-expert users. Second, current systems are often designed for static data, offering poor support for alternative or heterogeneous data sources increasingly employed in real-world applications (e.g., real-time data). Third, there is a need to consider ethical implications when data science pipelines are used in high-stakes domains, but a unified solution to address both data quality and fairness issues does not exist. For instance, a data scientist developing an AI-based model on a real-world dataset affected by data quality errors (such as missing values, outliers, potential biases, etc.) requires effective support to select and validate an appropriate data preparation pipeline, while maintaining transparency and user control over the process. To overcome these limitations, this thesis presents DIANA, a knowledge-driven, human-centered framework for adaptive, data-centric AI that supports users in the design and validation of data preparation pipelines. The core component of DIANA is a knowledge base that collects evidence on the impact of data quality errors and the effectiveness of data preparation techniques across diverse datasets and analytics applications. A set of machine learning-based predictors leverages this knowledge to recommend a suitable sequence of data preparation actions for a new dataset. The suggested pipeline is tailored to the input dataset, with its own profile, and the machine-learning model to be executed on that dataset. The system has been designed with a human-centered approach and allows users to interact at all stages of the pipeline and be supported by explainability techniques. User feedback is continuously collected and exploited to improve future recommendations. Moreover, DIANA adopts a sliding autonomy approach, in which the level of provided support and detail of the explanations varies on the basis of users' expertise and preferences. Beyond its user-centric design, DIANA has been extended to operate across heterogeneous data sources. In this thesis, the framework has been adapted to include two representative non-standard data sources: time series and knowledge graphs. For each data source type, the knowledge base is enriched with domain-specific evidence on the impact of data issues and the effectiveness of cleaning strategies. Finally, the framework incorporates ethical considerations by including bias detection and mitigation strategies. A new set of metrics is introduced to measure bias in tabular datasets, and an experimental evaluation on the impact of bias mitigation on fairness and data quality has been conducted to suggest suitable mitigations. Based on these findings, the system can suggest strategies to satisfy the user's analysis goals (e.g., favoring fairness over data quality or vice versa, depending on the application domain). The proposed framework has been validated through experiments concerning both synthetic and real-world datasets, which demonstrate that DIANA's pipeline recommendations consistently improve model performance and pipeline efficiency by reducing the computational effort while ensuring results reliability. Summarizing, this thesis contributes to the data-centric AI field with a knowledge-driven, human-centered, and adaptive solution for the development of a reliable, transparent, and trustworthy system.

Negli ultimi anni, la data-centric Artificial Intelligence (AI) si è affermata come un nuovo paradigma che sottolinea il ruolo centrale della qualità dei dati per ottenere risultati affidabili nelle pipeline di data science. Questa prospettiva ha progressivamente spostato l’attenzione della ricerca dall’approccio model-centric, principalmente focalizzato sul perfezionamento dei modelli per ottimizzarne le prestazioni, a una visione data-centric, che promuove il miglioramento dinamico e sistematico dei dati attraverso un processo iterativo. In tale contesto, la fase di preparazione dei dati assume un ruolo cruciale, diventando spesso l’elemento più importante dell’intera pipeline. Una tipica pipeline di data preparation comprende attività di esplorazione, profilazione e pulizia dei dati, finalizzate a garantire che la qualità del dataset sia coerente con i requisiti dell’analisi. Nonostante la sua importanza fondamentale, la preparazione dei dati rimane una delle fasi più complesse, onerose e dispendiose in termini di tempo. Gli utenti incontrano spesso difficoltà nel riconoscere correttamente le diverse tipologie di errori di qualità dei dati e nel selezionare, tra le numerose tecniche disponibili, quelle più appropriate per affrontarli. Questa tesi affronta tre principali lacune della ricerca che limitano l’efficacia degli attuali strumenti a supporto della fase di data preparation nelle pipeline di AI. In primo luogo, la maggior parte degli strumenti esistenti adotta soluzioni completamente automatizzate, offrendo un livello limitato di trasparenza, controllo e interattività. Ciò riduce l’interpretabilità e l’affidabilità percepita degli strumenti, in particolare per gli utenti non esperti. In secondo luogo, i sistemi attuali sono generalmente progettati per dati statici e forniscono un supporto limitato a fonti di dati alternative o eterogenee, sempre più diffuse nelle applicazioni reali, come i dati in tempo reale. In terzo luogo, nelle applicazioni in domini ad alto impatto decisionale, è necessario considerare le implicazioni etiche dell’utilizzo delle pipeline di data science. Tuttavia, manca ancora una soluzione unificata capace di affrontare congiuntamente problematiche di qualità dei dati e di fairness. Ad esempio, un data scientist che sviluppa un modello basato su AI a partire da un dataset reale affetto da errori di qualità (quali valori mancanti, outlier o potenziali bias) necessita di un supporto efficace per selezionare e validare una pipeline di data preparation adeguata, mantenendo al contempo trasparenza e controllo sul processo. Per superare tali limitazioni, questa tesi propone DIANA, un framework knowledge-driven e human-centered per un’AI data-centric adattiva, progettato per supportare gli utenti nella definizione e validazione di pipeline di preparazione dei dati. Il componente centrale di DIANA è una knowledge base che raccoglie evidenze sull’impatto degli errori di qualità dei dati e sull’efficacia delle tecniche di data preparation in diversi contesti applicativi e su differenti tipologie di dataset. Un insieme di predittori basati su machine learning sfrutta tale conoscenza per raccomandare una sequenza appropriata di azioni di preparazione per un nuovo dataset. La pipeline suggerita è personalizzata in funzione delle caratteristiche del dataset in ingresso e del modello di machine learning da eseguire. Il sistema è progettato secondo un approccio human-centered e consente agli utenti di interagire in tutte le fasi della pipeline, beneficiando di tecniche di explainability. Inoltre, il feedback degli utenti viene raccolto e integrato per migliorare progressivamente la qualità delle raccomandazioni future. DIANA adotta inoltre un approccio di sliding autonomy, in cui il livello di supporto e il grado di dettaglio delle spiegazioni variano in base all’esperienza e alle preferenze dell’utente. Oltre alla progettazione centrata sull’utente, DIANA è stato esteso per operare su fonti di dati eterogenee. In questa tesi, il framework è stato adattato per includere due tipologie rappresentative di dati non standard: serie temporali e knowledge graph. Per ciascuna tipologia, la knowledge base è stata arricchita con evidenze specifiche di dominio relative all’impatto dei problemi di qualità e all’efficacia delle strategie di pulizia. Infine, il framework integra considerazioni etiche attraverso l’inclusione di strategie di rilevamento e mitigazione dei bias. È stato introdotto un nuovo insieme di metriche per la misurazione del bias nei dataset tabulari ed è stata condotta una valutazione sperimentale dell’impatto delle tecniche di mitigazione sulla fairness e sulla qualità dei dati, al fine di individuare le strategie più adeguate. Sulla base di tali risultati, il sistema è in grado di suggerire soluzioni coerenti con gli obiettivi dell’analisi, ad esempio privilegiando la fairness rispetto alla qualità dei dati, o viceversa, a seconda del dominio applicativo. Il framework proposto è stato validato attraverso esperimenti su dataset sintetici e reali, dimostrando che le raccomandazioni di pipeline fornite da DIANA migliorano in modo consistente le prestazioni dei modelli e l’efficienza della pipeline, riducendo l’impegno computazionale e garantendo l’affidabilità dei risultati. In sintesi, questa tesi contribuisce al paradigma della data-centric AI proponendo una soluzione knowledge-driven, human-centered e adattiva per lo sviluppo di sistemi affidabili, trasparenti e trustworthy.