In recent years, the rapid advancement and widespread adoption of machine learning technologies, coupled with the proliferation of data-driven methodologies across diverse fields, have underscored the critical importance of high-quality data. Despite this, research has primarily focused on algorithm and model development, often neglecting the importance of the data itself. Moreover, traditional data quality measures have demonstrated their limitation in addressing the essential aspects necessary to achieve optimal performance, failing to comprehensively capture all relevant data quality considerations within the context of machine learning. Furthermore, with the increasing prevalence of data-driven decision-making across various domains, it has become imperative to consider the ethical implications of both the data and the outcomes derived from its analysis. This is essential for ensuring fairer results and mitigating instances of discrimination. To address these challenges, this thesis introduces a set of new data quality metrics specifically designed to assess data quality and ethics within machine learning. The objective is to assist the user in achieving better and fairer results by offering a set of metrics capable of capturing the aspects of data quality previously ignored. The proposed metrics underwent rigorous testing through several experiments on datasets belonging to various domains to validate their effectiveness. The influence of these metrics on the analysis results and their ability to capture the desired aspect of data quality were evaluated. Finally, the identified metrics were implemented in an interactive tool to make them easy to use and accessible. This tool allows users to quickly assess the quality of their data, providing practical support for data preparation and a better understanding of the dataset issues that could affect the performance. Its user-friendly interface allows users to explore metrics, interpret results, and make informed decisions based on data quality.

Negli ultimi anni, il rapido progresso e l'adozione diffusa delle tecnologie di machine learning, insieme alla proliferazione di metodologie data-driven in diversi campi, hanno sottolineato l'importanza di dati di alta qualità. Nonostante ciò, la ricerca si è concentrata principalmente sullo sviluppo di algoritmi e modelli, spesso trascurando l'importanza dei dati stessi. Inoltre, le metriche tradizionali della qualità dei dati hanno mostrato i loro limiti nell'affrontare gli aspetti necessari per ottenere prestazioni ottimali, non riuscendo a catturare in modo completo tutte le sfaccettaure della qualità dei dati nel contesto del machine learning. Inoltre, data la sempre maggiore diffusione degli approcci data-driven in vari ambiti, è diventato imperativo considerare le implicazioni etiche sia dei dati sia dei risultati derivati dalla loro analisi. Ciò è essenziale per garantire risultati più equi e mitigare i casi di discriminazione. Per affrontare queste sfide, questa tesi introduce una serie di nuove metriche di qualità dei dati, specificamente progettate per valutare la qualità dei dati e l'aspetto etico nell'ambito del machine learning. L'obiettivo è quello di aiutare l'utente a ottenere risultati migliori e più equi, offrendo un insieme di metriche in grado di catturare gli aspetti della qualità dei dati precedentemente ignorati. Le metriche proposte sono state sottoposte a test rigorosi attraverso diversi esperimenti su dataset appartenenti a vari domini per validarne l'efficacia. È stata valutata l'influenza di queste metriche sui risultati dell'analisi e la loro capacità di catturare gli aspetti desiderati della qualità dei dati. Infine, le metriche identificate sono state implementate in uno strumento interattivo per renderle facili da usare e accessibili. Questo strumento consente agli utenti di valutare rapidamente la qualità dei propri dati, fornendo un supporto pratico per la fase di preparazione dei dati e una migliore comprensione dei problemi presenti nei dataset che potrebbero influire sulle prestazioni. L'interfaccia di facile utilizzo consente agli utenti di esplorare le metriche, interpretare i risultati e prendere decisioni informate sulla base della qualità dei dati.

Beyond traditional quality metrics in data-centric AI: exploring dataset characteristics and fairness

CASTIGLIONE, PASQUALE
2022/2023

Abstract

In recent years, the rapid advancement and widespread adoption of machine learning technologies, coupled with the proliferation of data-driven methodologies across diverse fields, have underscored the critical importance of high-quality data. Despite this, research has primarily focused on algorithm and model development, often neglecting the importance of the data itself. Moreover, traditional data quality measures have demonstrated their limitation in addressing the essential aspects necessary to achieve optimal performance, failing to comprehensively capture all relevant data quality considerations within the context of machine learning. Furthermore, with the increasing prevalence of data-driven decision-making across various domains, it has become imperative to consider the ethical implications of both the data and the outcomes derived from its analysis. This is essential for ensuring fairer results and mitigating instances of discrimination. To address these challenges, this thesis introduces a set of new data quality metrics specifically designed to assess data quality and ethics within machine learning. The objective is to assist the user in achieving better and fairer results by offering a set of metrics capable of capturing the aspects of data quality previously ignored. The proposed metrics underwent rigorous testing through several experiments on datasets belonging to various domains to validate their effectiveness. The influence of these metrics on the analysis results and their ability to capture the desired aspect of data quality were evaluated. Finally, the identified metrics were implemented in an interactive tool to make them easy to use and accessible. This tool allows users to quickly assess the quality of their data, providing practical support for data preparation and a better understanding of the dataset issues that could affect the performance. Its user-friendly interface allows users to explore metrics, interpret results, and make informed decisions based on data quality.
SANCRICCA, CAMILLA
ING - Scuola di Ingegneria Industriale e dell'Informazione
9-apr-2024
2022/2023
Negli ultimi anni, il rapido progresso e l'adozione diffusa delle tecnologie di machine learning, insieme alla proliferazione di metodologie data-driven in diversi campi, hanno sottolineato l'importanza di dati di alta qualità. Nonostante ciò, la ricerca si è concentrata principalmente sullo sviluppo di algoritmi e modelli, spesso trascurando l'importanza dei dati stessi. Inoltre, le metriche tradizionali della qualità dei dati hanno mostrato i loro limiti nell'affrontare gli aspetti necessari per ottenere prestazioni ottimali, non riuscendo a catturare in modo completo tutte le sfaccettaure della qualità dei dati nel contesto del machine learning. Inoltre, data la sempre maggiore diffusione degli approcci data-driven in vari ambiti, è diventato imperativo considerare le implicazioni etiche sia dei dati sia dei risultati derivati dalla loro analisi. Ciò è essenziale per garantire risultati più equi e mitigare i casi di discriminazione. Per affrontare queste sfide, questa tesi introduce una serie di nuove metriche di qualità dei dati, specificamente progettate per valutare la qualità dei dati e l'aspetto etico nell'ambito del machine learning. L'obiettivo è quello di aiutare l'utente a ottenere risultati migliori e più equi, offrendo un insieme di metriche in grado di catturare gli aspetti della qualità dei dati precedentemente ignorati. Le metriche proposte sono state sottoposte a test rigorosi attraverso diversi esperimenti su dataset appartenenti a vari domini per validarne l'efficacia. È stata valutata l'influenza di queste metriche sui risultati dell'analisi e la loro capacità di catturare gli aspetti desiderati della qualità dei dati. Infine, le metriche identificate sono state implementate in uno strumento interattivo per renderle facili da usare e accessibili. Questo strumento consente agli utenti di valutare rapidamente la qualità dei propri dati, fornendo un supporto pratico per la fase di preparazione dei dati e una migliore comprensione dei problemi presenti nei dataset che potrebbero influire sulle prestazioni. L'interfaccia di facile utilizzo consente agli utenti di esplorare le metriche, interpretare i risultati e prendere decisioni informate sulla base della qualità dei dati.
File allegati
File Dimensione Formato  
2024_04_Castiglione_Tesi.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Tesi
Dimensione 6.73 MB
Formato Adobe PDF
6.73 MB Adobe PDF   Visualizza/Apri
2024_04_Castiglione_Executive_Summary.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Executive Summary
Dimensione 724.97 kB
Formato Adobe PDF
724.97 kB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/218353