Across recent years, the amount of data available has increased dramatically and consequently as many applications have been developed aiming at exploiting its enormous potential. Given the great volume of data sources available, it is therefore necessary to define a model to classify them, by combining both the importance of data with respect to the application of destination, and the quality of the data themselves. Within this context, DITAS project is meant to be defined, whose main objective is to develop a platform that supports the definition and execution of data-intensive applications. The hereby thesis work will be arranged within the aforesaid project, more precisely it will deal with defining a model suitable for the evaluation of the above-mentioned datasets, principally basing on the concept of Data Utility. This is defined by three main components, identifiable with Data Quality, Reputation and QoS (Quality of Service). Nevertheless, the project herein presented will only acknowledge the DQ, declined accordingly to the various application contexts, another fundamental criterion to be appointed. The innovativeness of the system will reside into its adaptivity. Indeed, it will be able to provide an assessment regarding the quality of data received as input, by considering the source typology, coupled with the attributes type inhere contained. Subsequently to an evaluation weighed according to various quality dimensions, the system will proceed with the ranking of datasets taken into consideration, classification that will be strongly influenced by the user-driven application context.
Negli ultimi anni l’ammontare di dati a disposizione è aumentato esponenzialmente e di conseguenza sono nate un gran numero di applicazioni atte a sfruttarne l’enorme potenziale. Vista la grande mole di sorgenti dati a disposizione, è necessario dunque definire un modello per classificarle, coniugando sia l'importanza dei dati rispetto all'applicazione che le vuole utilizzare, sia la qualità dei dati stessi. All’interno di questo contesto si colloca il progetto DITAS, il cui principale obiettivo è quello di sviluppare una piattaforma che supporti la definizione e l’esecuzione di applicazioni data-intensive. Il seguente lavoro di tesi intende collocarsi all’interno del suddetto progetto, e più precisamente si occuperà di definire un modello atto alla valutazione delle sopra citate sorgenti dati, basandosi sul concetto di Data Utility. Questa è definita come insieme di tre componenti principali, identificabili con DQ (Data Quality), Reputation e QoS (Qualità del Servizio). Tuttavia, nel corso del progetto ivi presentato, si andrà a tener conto solamente della DQ, declinata secondo i vari contesti di applicazione, altro criterio fondamentale. L’innovatività del sistema proposto risiederà proprio nella sua adattività. Questo, infatti, sarà in grado di fornire una valutazione circa la qualità dei dati ricevuti in input, tenendo conto della tipologia di sorgente, combinata al tipo degli attributi contenuti. A seguito di una valutazione, pesata secondo l’influenza delle varie dimensioni di qualità, il sistema procederà con l’elaborazione di un ranking delle sorgenti prese in considerazione, la cui classificazione verrà fortemente influenzata dal contesto applicativo specificato dall’utente.
Valutazione application-driven della data utility di sorgenti dati
PACI, MASSIMILIANO
2016/2017
Abstract
Across recent years, the amount of data available has increased dramatically and consequently as many applications have been developed aiming at exploiting its enormous potential. Given the great volume of data sources available, it is therefore necessary to define a model to classify them, by combining both the importance of data with respect to the application of destination, and the quality of the data themselves. Within this context, DITAS project is meant to be defined, whose main objective is to develop a platform that supports the definition and execution of data-intensive applications. The hereby thesis work will be arranged within the aforesaid project, more precisely it will deal with defining a model suitable for the evaluation of the above-mentioned datasets, principally basing on the concept of Data Utility. This is defined by three main components, identifiable with Data Quality, Reputation and QoS (Quality of Service). Nevertheless, the project herein presented will only acknowledge the DQ, declined accordingly to the various application contexts, another fundamental criterion to be appointed. The innovativeness of the system will reside into its adaptivity. Indeed, it will be able to provide an assessment regarding the quality of data received as input, by considering the source typology, coupled with the attributes type inhere contained. Subsequently to an evaluation weighed according to various quality dimensions, the system will proceed with the ranking of datasets taken into consideration, classification that will be strongly influenced by the user-driven application context.| File | Dimensione | Formato | |
|---|---|---|---|
|
2018_04_Paci.pdf
solo utenti autorizzati dal 05/04/2021
Descrizione: Testo della tesi
Dimensione
1.06 MB
Formato
Adobe PDF
|
1.06 MB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/140129