The abundance of data available nowadays on the Web makes more probable the case of finding sources providing (partially or completely) different values for the same data item. Data Fusion addresses the relevant problem of discovering the true values of a data item when two sources claim conflicting information. Recent studies have shown that, if we rely only on majority voting for finding the true value of an object, results may be wrong for up to 30% of the data items, since false values are spread very easily because data sources frequently copy from one another. Therefore, this problem must be solved by assessing the quality of sources and giving more importance to the values coming from trusted sources. State-of-the-art Data Fusion systems define the source trustworthiness by the accuracy of the provided values and on the correlation with other sources. In this thesis we propose ADAM, a new algorithm for Data Fusion, that extends existing methods based on accuracy and copy detection between sources by defining and taking into account also the authority of sources. Experimental results on a multi-truth real-world dataset confirm that our algorithm outperforms previous state-of-the-art approaches.
La grande quantità di dati disponibile online oggigiorno rende sempre più probabile l’imbattersi in diverse sorgenti di dati che forniscano valori (parzialmente o completamente) discordanti per lo stesso oggetto. Il processo di data fusion affronta l’importante problema di determinare i valori corretti di un dato nel caso in cui due sorgenti riportino informazioni contrastanti. Recenti studi hanno mostrato che, se ci si affida banalmente ad una votazione per determinare i valori corretti di un oggetto, i risultati potrebbero essere errati addirittura nel 30% dei casi, dal momento che i valori falsi si diffondono molto facilmente a causa della copiatura tra le sorgenti. Questo problema deve quindi essere risolto valutando la qualità delle sorgenti e dando una maggiore importanza ai valori forniti da sorgenti affidabili. I più recenti metodi di data fusion definiscono l’affidabilità delle sorgenti in funzione dell’accuratezza dei valori che forniscono e della correlazione con altre sorgenti. In questa tesi proponiamo ADAM, un nuovo algoritmo di data fusion che migliora i metodi esistenti basati sull'accuratezza delle sorgenti e sulla loro reciproca indipendenza, definendo e introducendo nel calcolo della bontà delle sorgenti anche la loro autorevolezza. Il nostro modello è stato progettato per funzionare correttamente anche in un contesto multi-truth, ovvero quando i valori corretti per un determinato oggetto possono essere più di uno. Risultati sperimentali, ottenuti utilizzando un dataset composto da dati reali, hanno confermato che il nostro algoritmo è migliore di altri approcci attualmente in uso.
Source authority in domain-aware multi-truth data fusion
PIANTELLA, DAVIDE
2017/2018
Abstract
The abundance of data available nowadays on the Web makes more probable the case of finding sources providing (partially or completely) different values for the same data item. Data Fusion addresses the relevant problem of discovering the true values of a data item when two sources claim conflicting information. Recent studies have shown that, if we rely only on majority voting for finding the true value of an object, results may be wrong for up to 30% of the data items, since false values are spread very easily because data sources frequently copy from one another. Therefore, this problem must be solved by assessing the quality of sources and giving more importance to the values coming from trusted sources. State-of-the-art Data Fusion systems define the source trustworthiness by the accuracy of the provided values and on the correlation with other sources. In this thesis we propose ADAM, a new algorithm for Data Fusion, that extends existing methods based on accuracy and copy detection between sources by defining and taking into account also the authority of sources. Experimental results on a multi-truth real-world dataset confirm that our algorithm outperforms previous state-of-the-art approaches.File | Dimensione | Formato | |
---|---|---|---|
2019_04_Piantella.pdf
non accessibile
Descrizione: Tesi
Dimensione
1.68 MB
Formato
Adobe PDF
|
1.68 MB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/148033