Data Integration is an essential step for developing data-driven decision in companies and for enhancing the awareness in managers towards the importance of information. However, nowadays is not easy to exert it properly due to the explosion of the Big Data phenomenon, of which consequences are affecting every corner of the enterprise, especially the processing time during projects' development. This research study proposes a solution to address this problem and promote effectiveness in companies, i.e. introduce a novel approach to automatically detect the content of a dataset, with a special attention on the information stored in one of its columns. This intelligent categorization is made possible by the exploitation of ontologies knowledge and structure, according to the principles of the Semantic Web, which is an extension of the World Wide Web. As a starting point, we tested several approaches using 41 datasets belonging to the city of Los Angeles. Hence, we tracked the improvements obtained in each step to design a more comprehensive methodology, i.e. the final model. Finally, we investigated the performance of this final model including also, when available, the exploitation of other information in the datasets, such as the location. Experimental results on datasets has shown that the accuracy and correctness of the outcome improved significantly with the development of the final design.

L'Integrazione dei Dati è un passaggio fondamentale nello sviluppo di decisioni basate su di essi nelle aziende e nella maturazione da parte dei manager di una certa consapevolezza della loro importanza. Tuttavia, oggi non è così banale praticare tecniche di Integrazione dei Dati a causa dell'esplosione dal fenomeno dei Big Data, le cui conseguenze stanno sfidando il mondo aziendale in ogni ambito, specialmente il tempo di processo richiesto durante lo sviluppo di qualsiasi progetto. Questo lavoro di ricerca propone un tentativo di soluzione a questo problema e di incoraggiamento ad una più elevata efficacia nelle imprese, suggerendo un nuovo approccio per l'identificazione automatica del contenuto di un dataset, ponendo particolare attenzione sulle informazioni mostrate da una delle sue colonne. Questa categorizzazione intelligente è resa possibile grazie all'utilizzo delle informazioni e dalla struttura che contraddistinguono le ontologie, definite sulla base dei principi del Web Semantico, che consiste in una estensione del World Wide Web. Come punto di partenza del progetto, sono stati testati diversi approcci su 41 dataset appartenenti alla città di Los Angeles. Quindi, durante ogni fase di sviluppo, sono stati tracciati tutti i miglioramenti ottenuti fino a generare una metodologia più completa e ampia che si è identificata in un modello finale. Infine, le performance di quest'ultimo sono state esaminate includendo anche nell'analisi, quando possibile, l'utilizzo di ulteriori informazioni dal dataset, come ad esempio la colonna contenente la posizione. I risultati ottenuti dagli esperimenti sui dataset hanno mostrato un significativo miglioramento dell'accuratezza e correttezza delle risposte, dato dallo sviluppo graduale del modello finale.

Exploiting the semantic web for the automatic extraction of Los Angeles city data

BUCCHI, MARIANNA
2018/2019

Abstract

Data Integration is an essential step for developing data-driven decision in companies and for enhancing the awareness in managers towards the importance of information. However, nowadays is not easy to exert it properly due to the explosion of the Big Data phenomenon, of which consequences are affecting every corner of the enterprise, especially the processing time during projects' development. This research study proposes a solution to address this problem and promote effectiveness in companies, i.e. introduce a novel approach to automatically detect the content of a dataset, with a special attention on the information stored in one of its columns. This intelligent categorization is made possible by the exploitation of ontologies knowledge and structure, according to the principles of the Semantic Web, which is an extension of the World Wide Web. As a starting point, we tested several approaches using 41 datasets belonging to the city of Los Angeles. Hence, we tracked the improvements obtained in each step to design a more comprehensive methodology, i.e. the final model. Finally, we investigated the performance of this final model including also, when available, the exploitation of other information in the datasets, such as the location. Experimental results on datasets has shown that the accuracy and correctness of the outcome improved significantly with the development of the final design.
KNOBLOCK, CRAIG
ING - Scuola di Ingegneria Industriale e dell'Informazione
29-apr-2020
2018/2019
L'Integrazione dei Dati è un passaggio fondamentale nello sviluppo di decisioni basate su di essi nelle aziende e nella maturazione da parte dei manager di una certa consapevolezza della loro importanza. Tuttavia, oggi non è così banale praticare tecniche di Integrazione dei Dati a causa dell'esplosione dal fenomeno dei Big Data, le cui conseguenze stanno sfidando il mondo aziendale in ogni ambito, specialmente il tempo di processo richiesto durante lo sviluppo di qualsiasi progetto. Questo lavoro di ricerca propone un tentativo di soluzione a questo problema e di incoraggiamento ad una più elevata efficacia nelle imprese, suggerendo un nuovo approccio per l'identificazione automatica del contenuto di un dataset, ponendo particolare attenzione sulle informazioni mostrate da una delle sue colonne. Questa categorizzazione intelligente è resa possibile grazie all'utilizzo delle informazioni e dalla struttura che contraddistinguono le ontologie, definite sulla base dei principi del Web Semantico, che consiste in una estensione del World Wide Web. Come punto di partenza del progetto, sono stati testati diversi approcci su 41 dataset appartenenti alla città di Los Angeles. Quindi, durante ogni fase di sviluppo, sono stati tracciati tutti i miglioramenti ottenuti fino a generare una metodologia più completa e ampia che si è identificata in un modello finale. Infine, le performance di quest'ultimo sono state esaminate includendo anche nell'analisi, quando possibile, l'utilizzo di ulteriori informazioni dal dataset, come ad esempio la colonna contenente la posizione. I risultati ottenuti dagli esperimenti sui dataset hanno mostrato un significativo miglioramento dell'accuratezza e correttezza delle risposte, dato dallo sviluppo graduale del modello finale.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
Marianna Bucchi Master Thesis.pdf

accessibile in internet per tutti

Descrizione: Thesis Text
Dimensione 3.09 MB
Formato Adobe PDF
3.09 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/154336