Ontology matching enhanced with aimilarity measures for georeferenced datasets

In this work we present a technique to improve the capability of the current data management systems to deal with geospatial data. In particular, we focus on enhancing ontology matching algorithms in order to make them more effective when identifying similarities between geospatial ontologies. This work is meant to define the core techniques for creating a framework capable of identifying any kind of relationships between geospatial datasets. We proceed following two steps: first, we define similarity measures for comparing the instances of geospatial ontologies; second, we integrate the result into a matcher. To compare the datasets we create a tessellation to reduce them to a common format. Maximizing the spatial autocorrelation among the cells we are able to identify the tessellation that best expresses the degree of clustering of the data. Finally, Person's R is used as similarity measure to compare the distributions. We propose a few different ways to integrate the obtained similarity measure into an ontology matching algorithm. We show the effectiveness of each of the used techniques with tests performed both on synthetic and real datasets. We also suggests how to compare datasets collected in different places in different time intervals. Our approach allows to address the MAUP problem and to integrate datasets having different resolutions.

I dati geospaziali stanno cambiando sempre più il modo in cui interagiamo con il mondo. In particolare, comportano notevoli trasformazioni nel modo in cui viaggiamo, prendiamo decisioni e pensiamo nuovi prodotti. Il loro uso in campo applicativo è straordinariamente vario: spazia da divertimento e ``social" (come twitter o foursquare) a studi ambientali e urbanistici. Un settore emergente di particolare interesse per l'uso dei dati geospaziali è quello dello ``urban metabolism". Il termine ``urban metabolism" esprime la necessità di pensare ad una città nello stesso modo in cui si pensa ad un organismo vivente: una realtà complessa, composta dall'interazione di svariate sottocomponenti. L'analisi di una città richiede l'integrazione di diversi indici di salute come flussi d'acqua, materiali ed indicatori socio-economici. L'integrazione di concetti così eterogenei, insieme alla volontà di non risolvere il problema sviluppando modelli specifici ad un'unica situazione, è un obiettivo molto ambizioso, che richiede ricerca e sviluppo di nuove tecnologie. Al fine di contribuire a questo scopo, nell'ADVIS lab di Chicago abbiamo sviluppato GIVA, una piattaforma che permette ad utenti esperti di analizzare dati geospaziali in modo trasparente rispetto alle eterogeneità che li caratterizzano. Il fine di questa tesi è progettare e sviluppare le tecnologie necessarie allo sviluppo del cuore di tale sistema. In particolare, il mio lavoro si concentra sul potenziamento di algoritmi di ``ontology matching" per migliorarne l'efficacia nell'identificazione di similitudini fra ontologie di dati georeferenziati. L'obiettivo finale è quello di sviluppare tecniche che permettano di identificare una relazione qualsiasi fra i concetti rappresentati da dati georeferenziati: che essa sia di similitudine, inclusione o quant'altro. Per il momento ci concentriamo sul primo passo, ossia l'identificazione di corrispondenze fra entità simili. Da un punto di vista tecnico, procediamo in due diverse fasi. La prima fase consiste nello sviluppo di una misura di similitudine per le istanze di ontologie di dati georeferenziati. La seconda fase consiste nella sua integrazione in un algoritmo di ``ontology matching". Se vogliamo confrontare diversi dataset dobbiamo prima ridurli ad una rappresentazione comune. Per questo motivo creiamo una griglia sopra lo spazio che vogliamo analizzare: discretizziamo lo spazio partizionandolo in un insieme di celle. Ad ogni cella assegnamo un valore ottenuto considerando le istanze in essa contenuta. Le singole istanze possono essere trattate in modo diverso, in base al concetto che rappresentano. Al fine di trovare il numero ottimo di celle per rappresentare il dataset in analisi abbiamo sviluppato una tecnica che coinvolge l'uso dell'autocorrelazione spaziale (l'indice di Moran). Per finire, confrontiamo le strutture dati così ottenute utilizzando l'indice di correlazione di Pearson. La misura di similitudine descritta viene successivamente integrata in un algoritmo sintattico di ``ontology matching", in modo da potenziarlo e renderlo più efficace nell'accoppiamento di ontologie di dati georeferenziati. Test su numerosi dataset dimostrano l'efficacia del nostro approccio. In particolare la metodologia descritta permette di trattare il ``MAUP problem", che consiste nell'analisi di dati provenienti da unità amministrative di diversa natura (ad esempio province e regioni), e confrontare dati raccolti a diverse risoluzioni. Per concludere, discutiamo diversi possibili sviluppi futuri, soppesando accuratamente pregi e difetti di ogni soluzione alternativa.