Every day in the world a huge amount of data are generated and the necessity to manage and store them is increasing. This great quantity of data open the opportunity for companies and enterprises to exploit them to make profit. Indeed it has become very common that the business based their decisions, regarding the company management, on the knowledge obtained from studies and analysis over the data. The problem is that there are too many sources and it has become difficult for enterprises to select the most appropriate and suitable information. For this reason the figure of a mediator, or broker, is fundamental. The role of the broker is to suggest to a customer the best data sources that can satisfy the requirements imposed. The selection performed examines the quality and the price of the sources, and then, based on the constraints demanded, the broker suggest to the customer the best one to buy. The objective of the broker is to provide the best set of data sources in terms of quality, minimizing the price and the execution time. This thesis aims to describe a new types of broker model, based on previous works, where the sources of data are data streams and the data used come from the stock market. This version of the broker adds new metadata that describes the characteristics of each data source, provenance, similarities, providers, correlations, value distributions and dependencies are some of them. Some types of metadata describe the characteristic of a single data source, while others define the relationships between different sources. All these information, regarding each data stream, can help the broker to determine if a data source is eligible to be part of the final plan offered to the end-user. An optimization over the performances of previous models has been done. In fact a filtering process has been implemented, in particular it acts before the evaluation of the data quality dimension values and before the optimization phase. This procedure rejects all data sources that has a different provider, have a higher price, do not have in common any attribute and have a different granularity, or lower, with respect the requirements imposed by the customer. This method reduces the total execution time of previous broker model, preserving the same quality level of the plan discovered. All these changes are tested and analysed in order to show the actual improvements achieved. To summarise, the usage of the broker can reduce the complexity of the data streams selection, supporting the decision making process and giving the opportunity to save money and time to the companies.

Ogni giorno nel mondo vengono generate grandi quantità di dati e la necessità di gestirli e conservarli è sempre più cresente. Questo enorme volume di dati apre la possibilià alle aziende e alle imprese di sfruttare queste informazioni a scopo di lucro. Infatti è ormai abituale per le società basare le proprie decisioni, riguardanti la politica aziendale, sulle informazioni ricavate dallo studio e dalle analisi dei dati. La problematica riscontrata in questo campo risiede nella selezione dei dati, infatti, data la grande disponibilità di informazioni, è complesso scegliere le fonti che possono fornire dati utili alle aziende. Per questa ragione la figura di un mediatore, o broker, è fondamentale. Il ruolo del broker è quello di suggerire al cliente le migliori sorgenti di dati che possono soddisfare le richieste. La selezione esamina la qualità e il prezzo di ogni sorgente e, basandosi sui vincoli imposti, il broker consiglia le sorgenti da acquistare. La finalità è quella di trovare una serie di sorgenti che offrono le migliori informazioni in termini di qualità, minimizzando il prezzo e il tempo di ricerca. Questa tesi descrive un nuovo modello di broker, basandosi su lavori precedenti, utilizzando come sorgenti i data streams e considerando come caso di studio i dati ricavati dal mercato delle azioni. Questa versione di broker aggiunge nuovi metadata che descrivono le caratteristiche di ogni sorgente, provenienza, similarità, correlazione, fornitore, dipendenze e distribuzioni dei valori sono alcuni di questi. Ci sono due tipi di metadata: uno descrive le caratteristiche di una singola sorgente, l'altro definisce i rapporti e le somiglianze tra diverse sorgenti. Questa conoscenza, riguardo ogni data stream, può aiutare a determinare se una fonte di dati può fare parte della soluzione finale. Una nuova funzionalità è stata aggiunta al modello di broker, con l'intento di migliorare le prestazioni. Un processo di filtraggio delle sorgenti è stato implementato. Questa procedura scarta tutte le fonti che hanno un fornitore diverso, hanno un prezzo superiore, non hanno in comune nessun attributo e hanno un granularità diverso o inferiore rispetto ai vincolo definiti dal cliente. Grazie a questa nuova funzionalità il tempo di ricerca ed esecuzione è diminuito, mantenendo lo stesso livello di qualità della soluzione trovata. Tutti questi cambiamenti sono stati testati e analizzati in modo tale da mostrare gli effettivi miglioramenti apportati al broker. Riassumendo, l'utilizzo del broker può ridurre sensibilmente la complessità nella scelta delle sorgenti dei dati, facendo risparmiare alle aziende tempo e denaro.

Selection of high quality data using a broker model

Lottaroli, Andrea
2021/2022

Abstract

Every day in the world a huge amount of data are generated and the necessity to manage and store them is increasing. This great quantity of data open the opportunity for companies and enterprises to exploit them to make profit. Indeed it has become very common that the business based their decisions, regarding the company management, on the knowledge obtained from studies and analysis over the data. The problem is that there are too many sources and it has become difficult for enterprises to select the most appropriate and suitable information. For this reason the figure of a mediator, or broker, is fundamental. The role of the broker is to suggest to a customer the best data sources that can satisfy the requirements imposed. The selection performed examines the quality and the price of the sources, and then, based on the constraints demanded, the broker suggest to the customer the best one to buy. The objective of the broker is to provide the best set of data sources in terms of quality, minimizing the price and the execution time. This thesis aims to describe a new types of broker model, based on previous works, where the sources of data are data streams and the data used come from the stock market. This version of the broker adds new metadata that describes the characteristics of each data source, provenance, similarities, providers, correlations, value distributions and dependencies are some of them. Some types of metadata describe the characteristic of a single data source, while others define the relationships between different sources. All these information, regarding each data stream, can help the broker to determine if a data source is eligible to be part of the final plan offered to the end-user. An optimization over the performances of previous models has been done. In fact a filtering process has been implemented, in particular it acts before the evaluation of the data quality dimension values and before the optimization phase. This procedure rejects all data sources that has a different provider, have a higher price, do not have in common any attribute and have a different granularity, or lower, with respect the requirements imposed by the customer. This method reduces the total execution time of previous broker model, preserving the same quality level of the plan discovered. All these changes are tested and analysed in order to show the actual improvements achieved. To summarise, the usage of the broker can reduce the complexity of the data streams selection, supporting the decision making process and giving the opportunity to save money and time to the companies.
ARDAGNA, DANILO
ING - Scuola di Ingegneria Industriale e dell'Informazione
20-dic-2022
2021/2022
Ogni giorno nel mondo vengono generate grandi quantità di dati e la necessità di gestirli e conservarli è sempre più cresente. Questo enorme volume di dati apre la possibilià alle aziende e alle imprese di sfruttare queste informazioni a scopo di lucro. Infatti è ormai abituale per le società basare le proprie decisioni, riguardanti la politica aziendale, sulle informazioni ricavate dallo studio e dalle analisi dei dati. La problematica riscontrata in questo campo risiede nella selezione dei dati, infatti, data la grande disponibilità di informazioni, è complesso scegliere le fonti che possono fornire dati utili alle aziende. Per questa ragione la figura di un mediatore, o broker, è fondamentale. Il ruolo del broker è quello di suggerire al cliente le migliori sorgenti di dati che possono soddisfare le richieste. La selezione esamina la qualità e il prezzo di ogni sorgente e, basandosi sui vincoli imposti, il broker consiglia le sorgenti da acquistare. La finalità è quella di trovare una serie di sorgenti che offrono le migliori informazioni in termini di qualità, minimizzando il prezzo e il tempo di ricerca. Questa tesi descrive un nuovo modello di broker, basandosi su lavori precedenti, utilizzando come sorgenti i data streams e considerando come caso di studio i dati ricavati dal mercato delle azioni. Questa versione di broker aggiunge nuovi metadata che descrivono le caratteristiche di ogni sorgente, provenienza, similarità, correlazione, fornitore, dipendenze e distribuzioni dei valori sono alcuni di questi. Ci sono due tipi di metadata: uno descrive le caratteristiche di una singola sorgente, l'altro definisce i rapporti e le somiglianze tra diverse sorgenti. Questa conoscenza, riguardo ogni data stream, può aiutare a determinare se una fonte di dati può fare parte della soluzione finale. Una nuova funzionalità è stata aggiunta al modello di broker, con l'intento di migliorare le prestazioni. Un processo di filtraggio delle sorgenti è stato implementato. Questa procedura scarta tutte le fonti che hanno un fornitore diverso, hanno un prezzo superiore, non hanno in comune nessun attributo e hanno un granularità diverso o inferiore rispetto ai vincolo definiti dal cliente. Grazie a questa nuova funzionalità il tempo di ricerca ed esecuzione è diminuito, mantenendo lo stesso livello di qualità della soluzione trovata. Tutti questi cambiamenti sono stati testati e analizzati in modo tale da mostrare gli effettivi miglioramenti apportati al broker. Riassumendo, l'utilizzo del broker può ridurre sensibilmente la complessità nella scelta delle sorgenti dei dati, facendo risparmiare alle aziende tempo e denaro.
File allegati
File Dimensione Formato  
2022_12_Lottaroli.pdf

accessibile in internet per tutti

Descrizione: Testo della tesi
Dimensione 1.12 MB
Formato Adobe PDF
1.12 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/201436