La struttura a tripla soggetto-predicato-oggetto del linguaggio RDF per la rappresentazione dei dati permette di rappresentare una base di conoscenza, anche molto complessa, sottoforma di grafo. Questa tecnologia ha permesso la creazione di dataset, anche di notevoli dimensioni, connessi tra loro, disponibili e leggibili anche in modo automatico: i Linked Open Data (LOD). Una knowledge base di questo tipo può contenere informazione utile non solo nelle singole risorse o nei predicati, ma anche in come si relazionano tra loro, in particolari sottografi e configurazioni. L’estrazione di regole di associazione da dataset RDF presenta quindi problematiche diverse da quelle di transazioni lineari, come il riconoscimento di configurazioni, la trasformazione delle triple in una forma utilizzabile dagli algoritmi per l’estrazione e l’interpretazione delle regole. L'obiettivo di questa tesi è di presentare un framework e una metodologia per la ricerca di regole di associazione complesse tra strutture eterogenee di risorse e predicati. La metodologia è suddivisa in fasi, caratterizzata da trasformazioni tipiche e utilizza anche algoritmi e software noti di data mining. Questo approccio è in parte derivato da alcuni metodi per la gestione di strutture dati ad albero, ma si differenzia da questi per la presenza di problematiche nuove, come la possibilità di accedere a più dataset sfruttandone i collegamenti, la presenza di sottografi frequenti e l'introduzione di template di query in SPARQL, il linguaggio di interrogazione per RDF. Il framework proposto opera a partire dalle knowledge base nella loro interezza, le semplifica e ne modifica la struttura attraverso opportune trasformazione, definendo e riconoscendo concetti complessi e integrandoli in una forma standard, che possa essere tradotta, con un algoritmo generale, nell'input per le procedure di estrazione delle regole di associazione. Queste vengono infine tradotta nuovamente in RDF, in modo tale da poter collegare ogni risorsa e concetto coinvolto alle sue relazioni nel dataset, senza perdita di informazione. La metodologia proposta viene applicata a diversi esempi, seguendo le fasi e le trasformazioni, al fine di dimostrare la validità degli algoritmi e dei concetti definiti.

Estrazione di regole di associazione da dati RDF

PUTELLI, LUCA
2014/2015

Abstract

La struttura a tripla soggetto-predicato-oggetto del linguaggio RDF per la rappresentazione dei dati permette di rappresentare una base di conoscenza, anche molto complessa, sottoforma di grafo. Questa tecnologia ha permesso la creazione di dataset, anche di notevoli dimensioni, connessi tra loro, disponibili e leggibili anche in modo automatico: i Linked Open Data (LOD). Una knowledge base di questo tipo può contenere informazione utile non solo nelle singole risorse o nei predicati, ma anche in come si relazionano tra loro, in particolari sottografi e configurazioni. L’estrazione di regole di associazione da dataset RDF presenta quindi problematiche diverse da quelle di transazioni lineari, come il riconoscimento di configurazioni, la trasformazione delle triple in una forma utilizzabile dagli algoritmi per l’estrazione e l’interpretazione delle regole. L'obiettivo di questa tesi è di presentare un framework e una metodologia per la ricerca di regole di associazione complesse tra strutture eterogenee di risorse e predicati. La metodologia è suddivisa in fasi, caratterizzata da trasformazioni tipiche e utilizza anche algoritmi e software noti di data mining. Questo approccio è in parte derivato da alcuni metodi per la gestione di strutture dati ad albero, ma si differenzia da questi per la presenza di problematiche nuove, come la possibilità di accedere a più dataset sfruttandone i collegamenti, la presenza di sottografi frequenti e l'introduzione di template di query in SPARQL, il linguaggio di interrogazione per RDF. Il framework proposto opera a partire dalle knowledge base nella loro interezza, le semplifica e ne modifica la struttura attraverso opportune trasformazione, definendo e riconoscendo concetti complessi e integrandoli in una forma standard, che possa essere tradotta, con un algoritmo generale, nell'input per le procedure di estrazione delle regole di associazione. Queste vengono infine tradotta nuovamente in RDF, in modo tale da poter collegare ogni risorsa e concetto coinvolto alle sue relazioni nel dataset, senza perdita di informazione. La metodologia proposta viene applicata a diversi esempi, seguendo le fasi e le trasformazioni, al fine di dimostrare la validità degli algoritmi e dei concetti definiti.
BRAGA, DANIELE MARIA
ING - Scuola di Ingegneria Industriale e dell'Informazione
27-apr-2016
2014/2015
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
RegoleRDF.pdf

accessibile in internet per tutti

Descrizione: Testo della tesi
Dimensione 3.77 MB
Formato Adobe PDF
3.77 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/121041