The real-time integration of huge volumes of dynamic data from heterogeneous sources is getting more and more attention, as the number of data-stream sources is keeping growing and changing at very high pace. Cities and the Internet of Things are perfect illustrations of such need. For instance, in the urban setting, semantic interpretation of road sensors and social networks can supply (directly and indirectly) continuous and up-to-date information about the traffic causes and their impacts, the progress of city-scale events or the trending activities around a user. While Data Stream and Event Processing deal with data streams and reactiveness, reasoning is a potential solution for the data heterogeneity: ontologies are key to access the data streams from the different sources and to make explicit hidden information. Stream Reasoning aims at bringing together those areas, with techniques to perform continuous reasoning tasks over data streams. In this context, the problem I investigate is how to unify the current Stream Reasoning techniques, as they substantially differ from each others. This fact is evident when these techniques are designed to reach different goals, e.g. aggregating data in the stream vs. detecting events. However, it happens even when they perform the same task and final users may expect the same behaviour. Understanding peculiarities and common points is mandatory in order to compare, contrast and integrate them. My research begins with the analysis of the state of the art in the area of Stream Reasoning, and in particular RDF Stream Processing (RSP), i.e. systems that focus on the continuous query answering task. Next, I build a formal model to capture their behaviour and their evaluation semantics. I proceed iteratively starting with a core set of features from Data Stream Processing and Semantic Web and, next, extending that by integrating concepts from Complex Event Processing and reasoning. The main outcome of my research is RSEP-QL, a formal reference model to describe the evaluation semantics of Stream Reasoning systems in the context of continuous query answering. RSEP-QL extends SPARQL by adding operators to manage streams such as sliding windows (also known as RSP-QL fragment of RSEP-QL) and event patterns. Similarly to SPARQL, RSEP-QL works under entailment regimes, which introduce deductive inference in the continuous query answering process. I show the value of RSEP-QL through an application in the area of comparative testing. I formalise a notion of correctness of the query answering process with regards to RSP-QL. The definition is at the basis of CSRBench, an extension of the SRBench benchmark to assess the correctness of existing RDF Stream Processing operators. CSRBench is composed by input data streams, continuous queries and an oracle that automatically verify if an answer provided by a system is correct.

L’integrazione in tempo reale di enormi flussi di dati da fonti etereogenee sta diventando un bisogno sempre più centrale nella realizzazione di servizi avanzati. Gli scenari delle smart city e dell’Internet of Things esemplificano alla perfezione questo bisogno. Nell’ambiente urbano, combinare i dati che vengono prodotti dalla città ha un grande valore: dai sensori che rilevano i passaggi d’auto fino ai messaggi sui social network dei cittadini. L’integrazione e l’elaborazione di questi dati può portare allo sviluppo di nuovi sistemi per studiare il traffico, per monitorare l’evoluzione di eventi di larga scala o per scoprire quali sono le attività di tendenza in corso. Se da un lato le tecniche di Data Stream Processing e Complex Event Processing offrono soluzioni per gestire questi flussi di dati in maniera reattiva, dall’altro le tecniche di reasoning sono una base per gestire l’eterogeneitá di questi dati. L’utilizzo di ontologie abilita l’accesso ai flussi di dati esposti dalle diverse sorgenti, esplicitando le informazioni nascoste in essi. L’area di ricerca dello Stream Reasoning studia come combinare le tecniche di queste aree, con soluzioni per eseguire reasoning in maniera continua sui flussi di dati. Il problema che affronto in questa tesi è come unificare le attuali tecniche di Stream Reasoning. Capita infatti che queste tecniche possano essere molto diverse le une dalle altre. Ciò è evidente quando i compiti che svolgono sono differenti (ad esempio aggregare dati o identificare sequenze rilevanti di eventi), ma può accadere anche quando gli obiettivi sono comuni e ci si potrebbe quindi attendere comportamenti simili. Capire le peculiarità e in punti in comune è importante per poter confrontare e integrare queste soluzioni. La mia attività di ricerca inizia con un’analisi dello stato dell’arte nell’area dello Stream Reasoning e in particolare in quella dell’RDF Stream Processing (RSP), sistemi che valutano query in maniera continua all’arrivare di nuove informazioni sui flussi di dati. Successivamente, la tesi costruisce un modello formale per catturare la semantica operazionale e il comportamento di tali sistemi. Per fare ciò, segue un approccio iterativo, iniziando con un insieme di concetti base di Data Stream Processing e Semantic Web, per poi integrare i concetti di Complex Event Processing. Il risultato principale della mia ricerca è RSEP-QL, un modello di riferimento per descrivere la semantica operazionale dei sistemi di Stream Reasoning nel contesto di compiti di interrogazione continua. RSEP-QL estende SPARQL aggiungendo operatori per gestire finestre e pattern di eventi. Come SPARQL, RSEP-QL opera considerando gli entailment regime, che introducono processi di inferenza deduttiva nel calcolo delle risposte. Per mostrare il valore di RSEP-QL, la tesi presenta un’applicazione nel dominio del test comparativo. Dopo aver formalizzato la nozione di correttezza per un frammento di RSEP-QL, costruisce CSRBench, un’estensione del benchmark SRBench. L’obiettivo di CSRBench è quello di verificare il corretto funzionamento dei sistemi basati sulle finestre di tipo sliding. CSRBench è composto da un insieme di dati in ingresso, da una serie di query continue e da un sistema (chiamto oracolo) per verificare automaticamente se la risposta fornita dal sistema è corretta.

On unified stream reasoning

DELL'AGLIO, DANIELE

Abstract

The real-time integration of huge volumes of dynamic data from heterogeneous sources is getting more and more attention, as the number of data-stream sources is keeping growing and changing at very high pace. Cities and the Internet of Things are perfect illustrations of such need. For instance, in the urban setting, semantic interpretation of road sensors and social networks can supply (directly and indirectly) continuous and up-to-date information about the traffic causes and their impacts, the progress of city-scale events or the trending activities around a user. While Data Stream and Event Processing deal with data streams and reactiveness, reasoning is a potential solution for the data heterogeneity: ontologies are key to access the data streams from the different sources and to make explicit hidden information. Stream Reasoning aims at bringing together those areas, with techniques to perform continuous reasoning tasks over data streams. In this context, the problem I investigate is how to unify the current Stream Reasoning techniques, as they substantially differ from each others. This fact is evident when these techniques are designed to reach different goals, e.g. aggregating data in the stream vs. detecting events. However, it happens even when they perform the same task and final users may expect the same behaviour. Understanding peculiarities and common points is mandatory in order to compare, contrast and integrate them. My research begins with the analysis of the state of the art in the area of Stream Reasoning, and in particular RDF Stream Processing (RSP), i.e. systems that focus on the continuous query answering task. Next, I build a formal model to capture their behaviour and their evaluation semantics. I proceed iteratively starting with a core set of features from Data Stream Processing and Semantic Web and, next, extending that by integrating concepts from Complex Event Processing and reasoning. The main outcome of my research is RSEP-QL, a formal reference model to describe the evaluation semantics of Stream Reasoning systems in the context of continuous query answering. RSEP-QL extends SPARQL by adding operators to manage streams such as sliding windows (also known as RSP-QL fragment of RSEP-QL) and event patterns. Similarly to SPARQL, RSEP-QL works under entailment regimes, which introduce deductive inference in the continuous query answering process. I show the value of RSEP-QL through an application in the area of comparative testing. I formalise a notion of correctness of the query answering process with regards to RSP-QL. The definition is at the basis of CSRBench, an extension of the SRBench benchmark to assess the correctness of existing RDF Stream Processing operators. CSRBench is composed by input data streams, continuous queries and an oracle that automatically verify if an answer provided by a system is correct.
BONARINI, ANDREA
CERI, STEFANO
15-lug-2016
L’integrazione in tempo reale di enormi flussi di dati da fonti etereogenee sta diventando un bisogno sempre più centrale nella realizzazione di servizi avanzati. Gli scenari delle smart city e dell’Internet of Things esemplificano alla perfezione questo bisogno. Nell’ambiente urbano, combinare i dati che vengono prodotti dalla città ha un grande valore: dai sensori che rilevano i passaggi d’auto fino ai messaggi sui social network dei cittadini. L’integrazione e l’elaborazione di questi dati può portare allo sviluppo di nuovi sistemi per studiare il traffico, per monitorare l’evoluzione di eventi di larga scala o per scoprire quali sono le attività di tendenza in corso. Se da un lato le tecniche di Data Stream Processing e Complex Event Processing offrono soluzioni per gestire questi flussi di dati in maniera reattiva, dall’altro le tecniche di reasoning sono una base per gestire l’eterogeneitá di questi dati. L’utilizzo di ontologie abilita l’accesso ai flussi di dati esposti dalle diverse sorgenti, esplicitando le informazioni nascoste in essi. L’area di ricerca dello Stream Reasoning studia come combinare le tecniche di queste aree, con soluzioni per eseguire reasoning in maniera continua sui flussi di dati. Il problema che affronto in questa tesi è come unificare le attuali tecniche di Stream Reasoning. Capita infatti che queste tecniche possano essere molto diverse le une dalle altre. Ciò è evidente quando i compiti che svolgono sono differenti (ad esempio aggregare dati o identificare sequenze rilevanti di eventi), ma può accadere anche quando gli obiettivi sono comuni e ci si potrebbe quindi attendere comportamenti simili. Capire le peculiarità e in punti in comune è importante per poter confrontare e integrare queste soluzioni. La mia attività di ricerca inizia con un’analisi dello stato dell’arte nell’area dello Stream Reasoning e in particolare in quella dell’RDF Stream Processing (RSP), sistemi che valutano query in maniera continua all’arrivare di nuove informazioni sui flussi di dati. Successivamente, la tesi costruisce un modello formale per catturare la semantica operazionale e il comportamento di tali sistemi. Per fare ciò, segue un approccio iterativo, iniziando con un insieme di concetti base di Data Stream Processing e Semantic Web, per poi integrare i concetti di Complex Event Processing. Il risultato principale della mia ricerca è RSEP-QL, un modello di riferimento per descrivere la semantica operazionale dei sistemi di Stream Reasoning nel contesto di compiti di interrogazione continua. RSEP-QL estende SPARQL aggiungendo operatori per gestire finestre e pattern di eventi. Come SPARQL, RSEP-QL opera considerando gli entailment regime, che introducono processi di inferenza deduttiva nel calcolo delle risposte. Per mostrare il valore di RSEP-QL, la tesi presenta un’applicazione nel dominio del test comparativo. Dopo aver formalizzato la nozione di correttezza per un frammento di RSEP-QL, costruisce CSRBench, un’estensione del benchmark SRBench. L’obiettivo di CSRBench è quello di verificare il corretto funzionamento dei sistemi basati sulle finestre di tipo sliding. CSRBench è composto da un insieme di dati in ingresso, da una serie di query continue e da un sistema (chiamto oracolo) per verificare automaticamente se la risposta fornita dal sistema è corretta.
Tesi di dottorato
File allegati
File Dimensione Formato  
thesis.pdf

accessibile in internet per tutti

Descrizione: Thesis text
Dimensione 2.26 MB
Formato Adobe PDF
2.26 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/122892