The increasing volume and diversity of data present significant challenges for effective data management, particularly in the preparation phase that precedes analysis. This thesis has addressed these challenges by focusing on an advanced preparation methodology, with a special emphasis on the role of Artificial Intelligence (AI), and more specifically Large Language Models (LLMs), in enhancing data cleaning processes. The research involved the practical application of an AI-driven data cleaning technique to a vast AXA XL project, comprehending data extraction, preparation, analysis and visualization using Python and its associated data science libraries. In particular, a key focus was the recovery and homogenization of a previously unusable attribute composed of manually inputted strings. By leveraging the capabilities of LLMs, missing values were filled and inconsistencies were resolved, making it utilizable for aggregation functions. The outcomes of this project demonstrated that AI can significantly enhance the applications of the data cleaning processes, paving the way for future techniques to better recover challenging attributes. This, together with other data cleaning steps, permitted to reach notably improvements in data completeness, consistency, uniqueness and timeliness. All in all, the integration of AI into data analysis workflows represents a promising advancement in the field of data management. In fact, the methodologies adopted and the results obtained in this thesis both underscore the practical benefits of AI in data preparation and establish a benchmark for future research and development in this area.

L'aumento del volume e della diversità dei dati presenta sfide significative per una loro gestione efficace, in particolare nella fase di preparazione che precede l'analisi. Questa tesi ha affrontato queste tematiche concentrandosi su una metodologia avanzata di preparazione, con particolare enfasi sul ruolo dell'Intelligenza Artificiale (IA), e più specificamente dei Large Language Model (LLMs), nel migliorare i processi di pulizia dei dati. La ricerca ha coinvolto l'applicazione pratica di una tecnica di pulizia dei dati guidata dall'IA ad un vasto progetto della compagnia AXA XL, comprendendo estrazione, preparazione, analisi e visualizzazione dei dati utilizzando Python e le sue librerie di data science associate. In particolare, un'attenzione chiave è stata rivolta al recupero e alla omogeneizzazione di un attributo precedentemente inutilizzabile composto da stringhe inserite manualmente. Sfruttando le capacità dei LLMs, sono stati riempiti i valori mancanti e risolte le incoerenze, rendendolo utilizzabile per funzioni di aggregazione. I risultati di questo progetto hanno dimostrato che l'IA può migliorare significativamente l'applicazione dei processi di preparazione dei dati, aprendo la strada a tecniche future per recuperare al meglio gli attributi più complessi da gestire. Questo, insieme ad altre tecniche di pulizia, ha permesso di ottenere notevoli miglioramenti in diversi indicatori legati alla qualità dei dati. In definitiva, l'integrazione dell'IA nei flussi di lavoro dell'analisi dei dati rappresenta un promettente progresso nel campo della gestione dei dati. Infatti, le metodologie adottate ed i risultati ottenuti in questa tesi sottolineano sia i benefici pratici dell'IA nella preparazione dei dati sia stabiliscono un punto di riferimento per la ricerca e per gli sviluppi futuri in queste pratiche.

Enhancing data governance and preparation in insurance analytics: a data-centric approach

Agnello, Rocco
2023/2024

Abstract

The increasing volume and diversity of data present significant challenges for effective data management, particularly in the preparation phase that precedes analysis. This thesis has addressed these challenges by focusing on an advanced preparation methodology, with a special emphasis on the role of Artificial Intelligence (AI), and more specifically Large Language Models (LLMs), in enhancing data cleaning processes. The research involved the practical application of an AI-driven data cleaning technique to a vast AXA XL project, comprehending data extraction, preparation, analysis and visualization using Python and its associated data science libraries. In particular, a key focus was the recovery and homogenization of a previously unusable attribute composed of manually inputted strings. By leveraging the capabilities of LLMs, missing values were filled and inconsistencies were resolved, making it utilizable for aggregation functions. The outcomes of this project demonstrated that AI can significantly enhance the applications of the data cleaning processes, paving the way for future techniques to better recover challenging attributes. This, together with other data cleaning steps, permitted to reach notably improvements in data completeness, consistency, uniqueness and timeliness. All in all, the integration of AI into data analysis workflows represents a promising advancement in the field of data management. In fact, the methodologies adopted and the results obtained in this thesis both underscore the practical benefits of AI in data preparation and establish a benchmark for future research and development in this area.
ZANARDI, ALESSANDRO
ING - Scuola di Ingegneria Industriale e dell'Informazione
16-lug-2024
2023/2024
L'aumento del volume e della diversità dei dati presenta sfide significative per una loro gestione efficace, in particolare nella fase di preparazione che precede l'analisi. Questa tesi ha affrontato queste tematiche concentrandosi su una metodologia avanzata di preparazione, con particolare enfasi sul ruolo dell'Intelligenza Artificiale (IA), e più specificamente dei Large Language Model (LLMs), nel migliorare i processi di pulizia dei dati. La ricerca ha coinvolto l'applicazione pratica di una tecnica di pulizia dei dati guidata dall'IA ad un vasto progetto della compagnia AXA XL, comprendendo estrazione, preparazione, analisi e visualizzazione dei dati utilizzando Python e le sue librerie di data science associate. In particolare, un'attenzione chiave è stata rivolta al recupero e alla omogeneizzazione di un attributo precedentemente inutilizzabile composto da stringhe inserite manualmente. Sfruttando le capacità dei LLMs, sono stati riempiti i valori mancanti e risolte le incoerenze, rendendolo utilizzabile per funzioni di aggregazione. I risultati di questo progetto hanno dimostrato che l'IA può migliorare significativamente l'applicazione dei processi di preparazione dei dati, aprendo la strada a tecniche future per recuperare al meglio gli attributi più complessi da gestire. Questo, insieme ad altre tecniche di pulizia, ha permesso di ottenere notevoli miglioramenti in diversi indicatori legati alla qualità dei dati. In definitiva, l'integrazione dell'IA nei flussi di lavoro dell'analisi dei dati rappresenta un promettente progresso nel campo della gestione dei dati. Infatti, le metodologie adottate ed i risultati ottenuti in questa tesi sottolineano sia i benefici pratici dell'IA nella preparazione dei dati sia stabiliscono un punto di riferimento per la ricerca e per gli sviluppi futuri in queste pratiche.
File allegati
File Dimensione Formato  
2024_07_Agnello_Tesi.pdf

non accessibile

Descrizione: Tesi
Dimensione 4.1 MB
Formato Adobe PDF
4.1 MB Adobe PDF   Visualizza/Apri
2024_07_Agnello_Executive Summary.pdf

non accessibile

Descrizione: Executive summary
Dimensione 637 kB
Formato Adobe PDF
637 kB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/223451