The term Data Quality brings a broad set of meanings. It is often referred as the tness of data with regard to the intended uses. Speci cally, Textual Data Quality refers to the analysis of natural language data. Being textual data one of the most abundant source of information available to companies, it is clear why more and more attention is posed on such problem. The main goal of this work is hence to build a framework that allows to evaluate a set of target textual records given that it is not known a priori the classi cation task we are going to perform and hence without having prior knowledge of the label distribution among the records. We present an approach to effectively train a model in an unsupervised setting by leveraging advanced textual augmentation techniques and transfer learning. We will show how the use of a model pre-trained on similar data, with respect to target data, combined with different augmentation strategies can produce labels that can be effectively used to train a model on target data.

Il termine "Data Quality" al giorno d'oggi è utilizzato con un'ampia gamma di significati. Spesso è utilizzato per riferirsi ad una metrica per misurare quanto dei dati siano adatti allo scopo per cui sono stati raccolti. Nello specifico, con 'qualità dei dati di tipo testuale' ci si riferisce all'analisi di testi che contengono linguaggio naturale. Essendo i dati di tipo testuale una delle fonti di informazione più abbondanti disponibile alle compagnie, è facile capire come mai una crescente attenzione è posta su questo tema. L'obbiettivo principale di questo lavoro è quello di proporre un framework che permetta di valutare la qualità di un set di dati di tipo testuale, senza avere alcuna conoscenza pregressa del tipo di classificazione che verrà effettuato e dunque senza conoscere la distribuzione delle label tra i dati del nostro set. In questo lavoro dunque presentiamo una tecnica per addestrare un modello in maniera efficacie in un contesto di apprendimento non supervisionato, sfruttando le tecniche più avanzate di augmentation e di transfer learning.

Textual data quality

CARONE, GIUSEPPE
2019/2020

Abstract

The term Data Quality brings a broad set of meanings. It is often referred as the tness of data with regard to the intended uses. Speci cally, Textual Data Quality refers to the analysis of natural language data. Being textual data one of the most abundant source of information available to companies, it is clear why more and more attention is posed on such problem. The main goal of this work is hence to build a framework that allows to evaluate a set of target textual records given that it is not known a priori the classi cation task we are going to perform and hence without having prior knowledge of the label distribution among the records. We present an approach to effectively train a model in an unsupervised setting by leveraging advanced textual augmentation techniques and transfer learning. We will show how the use of a model pre-trained on similar data, with respect to target data, combined with different augmentation strategies can produce labels that can be effectively used to train a model on target data.
LUI, ANDREA
ING - Scuola di Ingegneria Industriale e dell'Informazione
29-apr-2020
2019/2020
Il termine "Data Quality" al giorno d'oggi è utilizzato con un'ampia gamma di significati. Spesso è utilizzato per riferirsi ad una metrica per misurare quanto dei dati siano adatti allo scopo per cui sono stati raccolti. Nello specifico, con 'qualità dei dati di tipo testuale' ci si riferisce all'analisi di testi che contengono linguaggio naturale. Essendo i dati di tipo testuale una delle fonti di informazione più abbondanti disponibile alle compagnie, è facile capire come mai una crescente attenzione è posta su questo tema. L'obbiettivo principale di questo lavoro è quello di proporre un framework che permetta di valutare la qualità di un set di dati di tipo testuale, senza avere alcuna conoscenza pregressa del tipo di classificazione che verrà effettuato e dunque senza conoscere la distribuzione delle label tra i dati del nostro set. In questo lavoro dunque presentiamo una tecnica per addestrare un modello in maniera efficacie in un contesto di apprendimento non supervisionato, sfruttando le tecniche più avanzate di augmentation e di transfer learning.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
Giuseppe_Carone_Tesi.pdf

accessibile in internet per tutti

Dimensione 7.65 MB
Formato Adobe PDF
7.65 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/164781