Estrazione di regole di associazione da dati RDF

La struttura a tripla soggetto-predicato-oggetto del linguaggio RDF per la rappresentazione dei dati permette di rappresentare una base di conoscenza, anche molto complessa, sottoforma di grafo. Questa tecnologia ha permesso la creazione di dataset, anche di notevoli dimensioni, connessi tra loro, disponibili e leggibili anche in modo automatico: i Linked Open Data (LOD). Una knowledge base di questo tipo può contenere informazione utile non solo nelle singole risorse o nei predicati, ma anche in come si relazionano tra loro, in particolari sottografi e configurazioni. L’estrazione di regole di associazione da dataset RDF presenta quindi problematiche diverse da quelle di transazioni lineari, come il riconoscimento di configurazioni, la trasformazione delle triple in una forma utilizzabile dagli algoritmi per l’estrazione e l’interpretazione delle regole. L'obiettivo di questa tesi è di presentare un framework e una metodologia per la ricerca di regole di associazione complesse tra strutture eterogenee di risorse e predicati. La metodologia è suddivisa in fasi, caratterizzata da trasformazioni tipiche e utilizza anche algoritmi e software noti di data mining. Questo approccio è in parte derivato da alcuni metodi per la gestione di strutture dati ad albero, ma si differenzia da questi per la presenza di problematiche nuove, come la possibilità di accedere a più dataset sfruttandone i collegamenti, la presenza di sottografi frequenti e l'introduzione di template di query in SPARQL, il linguaggio di interrogazione per RDF. Il framework proposto opera a partire dalle knowledge base nella loro interezza, le semplifica e ne modifica la struttura attraverso opportune trasformazione, definendo e riconoscendo concetti complessi e integrandoli in una forma standard, che possa essere tradotta, con un algoritmo generale, nell'input per le procedure di estrazione delle regole di associazione. Queste vengono infine tradotta nuovamente in RDF, in modo tale da poter collegare ogni risorsa e concetto coinvolto alle sue relazioni nel dataset, senza perdita di informazione. La metodologia proposta viene applicata a diversi esempi, seguendo le fasi e le trasformazioni, al fine di dimostrare la validità degli algoritmi e dei concetti definiti.

Estrazione di regole di associazione da dati RDF

PUTELLI, LUCA

2014/2015

Abstract

La struttura a tripla soggetto-predicato-oggetto del linguaggio RDF per la rappresentazione dei dati permette di rappresentare una base di conoscenza, anche molto complessa, sottoforma di grafo. Questa tecnologia ha permesso la creazione di dataset, anche di notevoli dimensioni, connessi tra loro, disponibili e leggibili anche in modo automatico: i Linked Open Data (LOD). Una knowledge base di questo tipo può contenere informazione utile non solo nelle singole risorse o nei predicati, ma anche in come si relazionano tra loro, in particolari sottografi e configurazioni. L’estrazione di regole di associazione da dataset RDF presenta quindi problematiche diverse da quelle di transazioni lineari, come il riconoscimento di configurazioni, la trasformazione delle triple in una forma utilizzabile dagli algoritmi per l’estrazione e l’interpretazione delle regole. L'obiettivo di questa tesi è di presentare un framework e una metodologia per la ricerca di regole di associazione complesse tra strutture eterogenee di risorse e predicati. La metodologia è suddivisa in fasi, caratterizzata da trasformazioni tipiche e utilizza anche algoritmi e software noti di data mining. Questo approccio è in parte derivato da alcuni metodi per la gestione di strutture dati ad albero, ma si differenzia da questi per la presenza di problematiche nuove, come la possibilità di accedere a più dataset sfruttandone i collegamenti, la presenza di sottografi frequenti e l'introduzione di template di query in SPARQL, il linguaggio di interrogazione per RDF. Il framework proposto opera a partire dalle knowledge base nella loro interezza, le semplifica e ne modifica la struttura attraverso opportune trasformazione, definendo e riconoscendo concetti complessi e integrandoli in una forma standard, che possa essere tradotta, con un algoritmo generale, nell'input per le procedure di estrazione delle regole di associazione. Queste vengono infine tradotta nuovamente in RDF, in modo tale da poter collegare ogni risorsa e concetto coinvolto alle sue relazioni nel dataset, senza perdita di informazione. La metodologia proposta viene applicata a diversi esempi, seguendo le fasi e le trasformazioni, al fine di dimostrare la validità degli algoritmi e dei concetti definiti.

Scheda breve

Scheda completa

	Relatore
	
			CAMPI, ALESSANDRO
		
	Correlatore/i
	
			BRAGA, DANIELE MARIA
		
	Scuola / Dip.
	
			ING  - Scuola di Ingegneria Industriale e dell'Informazione
		
	Data
	
			27-apr-2016
		
	Anno accademico
	
			2014/2015
		
	Tipo di documento
	
			Tesi di laurea Magistrale
		
	Appare nelle tipologie:
	
			Tesi di laurea Magistrale

File allegati

File	Dimensione	Formato
RegoleRDF.pdf accessibile in internet per tutti Descrizione: Testo della tesi Dimensione 3.77 MB Formato Adobe PDF Visualizza/Apri	3.77 MB	Adobe PDF	Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/121041