Context aware data personalization : issues and solutions

The term information overload refers to the difficulty to understand and make decisions when too much information is available; in the era of Big Data this problem is becoming dramatic, since users may be literally overwhelmed by the cataract of data accessible in the most varied forms. With context-aware data tailoring, given a target application, in each specific context the system allows the user to access only the view (over a global data schema) which is relevant for that application in that context; this normally produces a great reduction of the mass of available data, along with a specialization of this data to the current personal interests of the user. This doctoral research begins by considering an existing context model named Context Dimension Model (CDM), able to represent all the available contexts in a given scenario - constituting the context schema - through a tree-shaped structure. Starting from the CDM, some context-related issues particularly relevant for data tailoring are studied. First, an RDF representation of context schemas is proposed, providing suitable RDFS classes and properties. A complete and independent set of RDF integrity constraints is used to guarantee the compliance of the representation with the CDM definition. To this aim, some categories of constraints already defined in the literature are employed together with novel ones; SPARQL queries to check the satisfaction of the new kinds of constraints are proposed, and some theoretical properties are investigated. Second, context schema evolution is considered. The useful perspectives to be used in context-aware data reduction depend on the application requirements, which are intrinsically dynamic and thus can evolve. In this scenario it is natural that some context-aware applications be not up-to-date, since they still use obsolete context schemas. This issue is tackled defining a set of evolution operators that the designer must employ to perform the updates; each operator is also associated with the changes that have to be applied to the contexts defined according to the old schema in order to make them compliant with the new one. Moreover, we study the implications of the schema evolution on the association between contexts and data, and provide techniques to optimize sequences of operators. A prototype tool implementing the proposed operators confirms the effectiveness of our strategy. Finally, we leave context modeling issues to deal with the interaction between context and user preferences. In fact, in order to determine the most suitable data portion for a certain user in a certain context, the contextual information may be coupled with the user personal preferences. Since the contexts are obtained by combining the values of the various dimensions, and the number of possible configurations may rapidly grow to several hundreds also for small context schemas, requiring users to manually specify long lists of preferences for each possible context means really expecting too much from their spirit of collaboration. In this research, we propose a methodology where contextual preferences on tuples and attributes of a relational database are learned from the previous user's querying activity, gathering knowledge in terms of association rules. Experimental results highlight both the effectiveness of the approach and the utility of enriching user preferences with contextual information.

L'espressione sovraccarico informativo si riferisce alle difficoltà nella comprensione e nel prendere decisioni che emergono quando l'informazione a disposizione è troppo estesa; oggigiorno, nell'era dei "Big Data", questo problema sta diventando drammatico, poiché gli utenti possono essere letteralmente sopraffatti dal fiume di dati che si presenta loro nelle più svariate forme. Tramite il ritaglio - o tailoring - dei dati basato sul contesto, data una certa applicazione, in ogni contesto il sistema fornisce all'utente la possibilità di accedere soltanto all'informazione rilevante per quell'applicazione in quel contesto; questo modo di procedere normalmente garantisce una notevole riduzione della mole di dati, oltre che una specializzazione dell'informazione orientata agli interessi attuali dell'utente. Questa ricerca inizia considerando un modello di contesto esistente, chiamato Context Dimension Model (CDM), capace di rappresentare i contesti disponibili in un dato scenario attraverso una struttura ad albero, che costituisce lo schema del contesto di quello scenario. Partendo dal CDM, si studiano alcune problematiche legate al contesto che assumono una particolare importanza per il ritaglio dei dati. Prima di tutto, si propone una rappresentazione RDF per gli schemi di contesto, definendo opportune classi e proprietà RDFS. La rappresentazione è arricchita da un insieme completo e indipendente di vincoli di integrità che garantiscono la conformità di uno schema di contesto espresso in RDF con le caratteristiche del CDM. A questo scopo, si utilizzano alcune tipologie di vincoli per RDF definite nella letteratura, e se ne introducono di nuove. Inoltre, si propongono interrogazioni SPARQL capaci di verificare se un documento RDF soddisfi vincoli appartenenti alle nuove categorie, e si studiano alcune proprietà teoriche. Si considera poi l'evoluzione di schemi di contesto. Le prospettive utili per il filtraggio dei dati basato sul contesto dipendono dai requisiti delle applicazioni, che sono intrinsecamente dinamici e si possono evolvere. In tale scenario è naturale che alcune applicazioni context-aware non siano aggiornate, e utilizzino ancora schemi obsoleti. Questo problema è affrontato definendo un insieme di operatori che il progettista deve impiegare per effettuare gli aggiornamenti; ogni operatore è associato anche ai cambiamenti che devono essere applicati ai contesti definiti sulla base del vecchio schema per renderli conformi al nuovo. Inoltre, si studiano le implicazioni dell'evoluzione dello schema sull'associazione tra contesti e dati, e si forniscono tecniche per ottimizzare sequenze di operatori. L'efficacia della strategia è confermata da un prototipo software che implementa gli operatori proposti. Da ultimo, si abbandonano le problematiche legate alla modellazione del contesto per affrontare l'interazione tra contesto e preferenze degli utenti. Infatti, per determinare la porzione di dati più appropriata per un certo utente in un certo contesto, l'informazione contestuale può essere arricchita con le preferenze personali degli utenti. Dato che i contesti sono ottenuti combinando i valori di varie dimensioni, e il numero di configurazioni possibili può raggiungere rapidamente diverse centinaia anche per piccoli schemi di contesto, richiedere agli utenti di specificare manualmente lunghe liste di preferenze per ogni possibile contesto significa davvero pretendere troppo dal loro spirito di collaborazione. In questa ricerca si propone una metodologia in cui si sfruttano informazioni relative alle interrogazioni eseguite dall'utente nel passato per inferire preferenze su tuple e attributi di una base di dati relazionale, estraendo conoscenza in termini di regole di associazione. Risultati sperimentali mostrano l'efficacia dell'approccio, ed evidenziano come sia utile arricchire le preferenze degli utenti con informazione contestuale.

Context aware data personalization : issues and solutions

RABOSIO, EMANUELE

Abstract

The term information overload refers to the difficulty to understand and make decisions when too much information is available; in the era of Big Data this problem is becoming dramatic, since users may be literally overwhelmed by the cataract of data accessible in the most varied forms. With context-aware data tailoring, given a target application, in each specific context the system allows the user to access only the view (over a global data schema) which is relevant for that application in that context; this normally produces a great reduction of the mass of available data, along with a specialization of this data to the current personal interests of the user. This doctoral research begins by considering an existing context model named Context Dimension Model (CDM), able to represent all the available contexts in a given scenario - constituting the context schema - through a tree-shaped structure. Starting from the CDM, some context-related issues particularly relevant for data tailoring are studied. First, an RDF representation of context schemas is proposed, providing suitable RDFS classes and properties. A complete and independent set of RDF integrity constraints is used to guarantee the compliance of the representation with the CDM definition. To this aim, some categories of constraints already defined in the literature are employed together with novel ones; SPARQL queries to check the satisfaction of the new kinds of constraints are proposed, and some theoretical properties are investigated. Second, context schema evolution is considered. The useful perspectives to be used in context-aware data reduction depend on the application requirements, which are intrinsically dynamic and thus can evolve. In this scenario it is natural that some context-aware applications be not up-to-date, since they still use obsolete context schemas. This issue is tackled defining a set of evolution operators that the designer must employ to perform the updates; each operator is also associated with the changes that have to be applied to the contexts defined according to the old schema in order to make them compliant with the new one. Moreover, we study the implications of the schema evolution on the association between contexts and data, and provide techniques to optimize sequences of operators. A prototype tool implementing the proposed operators confirms the effectiveness of our strategy. Finally, we leave context modeling issues to deal with the interaction between context and user preferences. In fact, in order to determine the most suitable data portion for a certain user in a certain context, the contextual information may be coupled with the user personal preferences. Since the contexts are obtained by combining the values of the various dimensions, and the number of possible configurations may rapidly grow to several hundreds also for small context schemas, requiring users to manually specify long lists of preferences for each possible context means really expecting too much from their spirit of collaboration. In this research, we propose a methodology where contextual preferences on tuples and attributes of a relational database are learned from the previous user's querying activity, gathering knowledge in terms of association rules. Experimental results highlight both the effectiveness of the approach and the utility of enriching user preferences with contextual information.

Scheda breve

Scheda completa

	Relatore
	
				QUINTARELLI, ELISA
			
	Coordinatore
	
				FIORINI, CARLO ETTORE
			
	Tutor
	
				TANCA, LETIZIA
			
	Data
	
				22-mar-2013
			
	Abstract in italiano
	
				L'espressione sovraccarico informativo si riferisce alle difficoltà nella comprensione e nel prendere decisioni che emergono quando l'informazione a disposizione è troppo estesa; oggigiorno, nell'era dei "Big Data", questo problema sta diventando drammatico, poiché gli utenti possono essere letteralmente sopraffatti dal fiume di dati che si presenta loro nelle più svariate forme. Tramite il ritaglio - o tailoring - dei dati basato sul contesto, data una certa applicazione, in ogni contesto il sistema fornisce all'utente la possibilità di accedere soltanto all'informazione rilevante per quell'applicazione in quel contesto; questo modo di procedere normalmente garantisce una notevole riduzione della mole di dati, oltre che una specializzazione dell'informazione orientata agli interessi attuali dell'utente.

Questa ricerca inizia considerando un modello di contesto esistente, chiamato Context Dimension Model (CDM), capace di rappresentare i contesti disponibili in un dato scenario attraverso una struttura ad albero, che costituisce lo schema del contesto di quello scenario. Partendo dal CDM, si studiano alcune problematiche legate al contesto che assumono una particolare importanza per il ritaglio dei dati.

Prima di tutto, si propone una rappresentazione RDF per gli schemi di contesto, definendo opportune classi e proprietà RDFS. La rappresentazione è arricchita da un insieme completo e indipendente di vincoli di integrità che garantiscono la conformità di uno schema di contesto espresso in RDF con le caratteristiche del CDM. A questo scopo, si utilizzano alcune tipologie di vincoli per RDF definite nella letteratura, e se ne introducono di nuove. Inoltre, si propongono interrogazioni SPARQL capaci di verificare se un documento RDF soddisfi vincoli appartenenti alle nuove categorie, e si studiano alcune proprietà teoriche.

Si considera poi l'evoluzione di schemi di contesto. Le prospettive utili per il filtraggio dei dati basato sul contesto dipendono dai requisiti delle applicazioni, che sono intrinsecamente dinamici e si possono evolvere. In tale scenario è naturale che alcune applicazioni context-aware non siano aggiornate, e utilizzino ancora schemi obsoleti. Questo problema è affrontato definendo un insieme di operatori che il progettista deve impiegare per effettuare gli aggiornamenti; ogni operatore è associato anche ai cambiamenti che devono essere applicati ai contesti definiti sulla base del vecchio schema per renderli conformi al nuovo. Inoltre, si studiano le implicazioni dell'evoluzione dello schema sull'associazione tra contesti e dati, e si forniscono tecniche per ottimizzare sequenze di operatori. L'efficacia della strategia è confermata da un prototipo software che implementa gli operatori proposti.

Da ultimo, si abbandonano le problematiche legate alla modellazione del contesto per affrontare l'interazione tra contesto e preferenze degli utenti. Infatti, per determinare la porzione di dati più appropriata per un certo utente in un certo contesto, l'informazione contestuale può essere arricchita con le preferenze personali degli utenti. Dato che i contesti sono ottenuti combinando i valori di varie dimensioni, e il numero di configurazioni possibili può raggiungere rapidamente diverse centinaia anche per piccoli schemi di contesto, richiedere agli utenti di specificare manualmente lunghe liste di preferenze per ogni possibile contesto significa davvero pretendere troppo dal loro spirito di collaborazione. In questa ricerca si propone una metodologia in cui si sfruttano informazioni relative alle interrogazioni eseguite dall'utente nel passato per inferire preferenze su tuple e attributi di una base di dati relazionale, estraendo conoscenza in termini di regole di associazione. Risultati sperimentali mostrano l'efficacia dell'approccio, ed evidenziano come sia utile arricchire le preferenze degli utenti con informazione contestuale.
			
	Tipo di documento
	
				Tesi di dottorato
			
	Appare nelle tipologie:
	
				Tesi di Dottorato

File allegati

File	Dimensione	Formato
2013_03_PhD_Rabosio.pdf accessibile in internet solo dagli utenti autorizzati Descrizione: Tesi Dimensione 4.68 MB Formato Adobe PDF Visualizza/Apri	4.68 MB	Adobe PDF	Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/74742