Unstructured data is data that is not arranged according to a pre-set data model or schema. Most of the data produced in the word currently is unstructured and the category includes images, audio files and text documents. Despite the fact that companies are relying more and more on unstructured data for the services they provide and in their decision making process, research on data quality for unstructured data is at an early stage. The importance of data quality has become evident in the last years, low data quality is dangerous because it can lead to wrong or missing decisions, strategies and operations. It can slow down innovation processes, and losses for organizations caused by low data quality are estimated to lie over billions of dollars per year. In this work we provide an overview on the state of the art of the research concerning data quality for unstructured data adopting a bottom-up approach. We start by defining data quality for unstructured data in general, then we move to data quality for texts and finally we go more in detail for the specific domains of tweets and online reviews. In our analysis we try to focus on data quality from the perspective of a machine consumer, therefore for the quality dimensions we identified we were able to provide means for automatic evaluation, for which we supplied also an implementation. We tested the indicators we implemented on different collections of documents and commented on the results. Finally we discuss the implementation of an online tool that allows users to upload a text document and get the computation of data quality for that document as a result.

I dati non strutturati sono dati che non sono organizzati secondo un modello o uno schema logico predefinito. La maggior parte dei dati prodotti nel mondo sono non strutturati e la categoria comprende immagini, file audio e documenti testuali. Sebbene le aziende sovente utilizzino i dati non strutturati per i servizi che forniscono e nei loro processi decisionali, la ricerca sulla qualità dei dati non strutturati è ad uno stadio primordiale. L’importanza della qualità dei dati è diventata evidente negli ultimi anni, una scarsa qualità è problematica perché può portare a decisioni e strategie sbagliate e può rallentare il processo di innovazione. Si stima che le perdite per le organizzazioni causate da una bassa qualità dei dati siano quantificabili nell’ordine dei miliardi di dollari all’anno. Con il nostro lavoro forniamo panoramica sullo stato dell’arte della ricerca sulla qualità dei dati non strutturati, con l’adozione di un approccio bottom-up. Cominciamo dando una definizione di qualità per i dati non strutturati in generale, successivamente spostiamo l’attenzione sulla qualità dei dati testuali e infine andiamo nel dettaglio sulla qualità delle recensioni online e i tweet. Nella nostra analisi proviamo a concentrarci sulla qualità dei dati non dalla prospettiva di un essere umano ma di una macchina, dunque per le dimensioni che abbiamo identificato forniamo gli strumenti per una valutazione automatica, per i quali abbiamo fornito anche una implementazione. Abbiamo testato gli indicatori implementati su diverse raccolte di documenti testuali, commentandone i risultati. Infine, in questo lavoro presentiamo l’implementazione di uno strumento online che permette agli utenti di caricare un documento testuale e di calcolarne la qualità.

Data quality for unstructured data

BIONDO, LIVIO
2021/2022

Abstract

Unstructured data is data that is not arranged according to a pre-set data model or schema. Most of the data produced in the word currently is unstructured and the category includes images, audio files and text documents. Despite the fact that companies are relying more and more on unstructured data for the services they provide and in their decision making process, research on data quality for unstructured data is at an early stage. The importance of data quality has become evident in the last years, low data quality is dangerous because it can lead to wrong or missing decisions, strategies and operations. It can slow down innovation processes, and losses for organizations caused by low data quality are estimated to lie over billions of dollars per year. In this work we provide an overview on the state of the art of the research concerning data quality for unstructured data adopting a bottom-up approach. We start by defining data quality for unstructured data in general, then we move to data quality for texts and finally we go more in detail for the specific domains of tweets and online reviews. In our analysis we try to focus on data quality from the perspective of a machine consumer, therefore for the quality dimensions we identified we were able to provide means for automatic evaluation, for which we supplied also an implementation. We tested the indicators we implemented on different collections of documents and commented on the results. Finally we discuss the implementation of an online tool that allows users to upload a text document and get the computation of data quality for that document as a result.
ING - Scuola di Ingegneria Industriale e dell'Informazione
22-lug-2022
2021/2022
I dati non strutturati sono dati che non sono organizzati secondo un modello o uno schema logico predefinito. La maggior parte dei dati prodotti nel mondo sono non strutturati e la categoria comprende immagini, file audio e documenti testuali. Sebbene le aziende sovente utilizzino i dati non strutturati per i servizi che forniscono e nei loro processi decisionali, la ricerca sulla qualità dei dati non strutturati è ad uno stadio primordiale. L’importanza della qualità dei dati è diventata evidente negli ultimi anni, una scarsa qualità è problematica perché può portare a decisioni e strategie sbagliate e può rallentare il processo di innovazione. Si stima che le perdite per le organizzazioni causate da una bassa qualità dei dati siano quantificabili nell’ordine dei miliardi di dollari all’anno. Con il nostro lavoro forniamo panoramica sullo stato dell’arte della ricerca sulla qualità dei dati non strutturati, con l’adozione di un approccio bottom-up. Cominciamo dando una definizione di qualità per i dati non strutturati in generale, successivamente spostiamo l’attenzione sulla qualità dei dati testuali e infine andiamo nel dettaglio sulla qualità delle recensioni online e i tweet. Nella nostra analisi proviamo a concentrarci sulla qualità dei dati non dalla prospettiva di un essere umano ma di una macchina, dunque per le dimensioni che abbiamo identificato forniamo gli strumenti per una valutazione automatica, per i quali abbiamo fornito anche una implementazione. Abbiamo testato gli indicatori implementati su diverse raccolte di documenti testuali, commentandone i risultati. Infine, in questo lavoro presentiamo l’implementazione di uno strumento online che permette agli utenti di caricare un documento testuale e di calcolarne la qualità.
File allegati
File Dimensione Formato  
2022_07_Biondo.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: documento tesi
Dimensione 1.51 MB
Formato Adobe PDF
1.51 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/190242