On the continuous and reactive analysis of a variety of spatio-temporal data

In recent years, an increasing number of situations call for reactive decisions making process based on a heterogeneous streaming data. In this context, the urban environment results particularly relevant, because there is a dense network of interactions between people and urban spaces that produces a great amount of spatio-temporal fast evolving data. Moreover, in a modern city there is a multitude of stakeholders who are interested in reactive decisions for urban planning, mobility management, tourism, etc. The growing usage of location-based social networks, and, in general, the diffusion of mobile devices improved the ability to create an accurate and up-to-date representation of reality (a.k.a. Digital footprint or Digital reflection or Digital twin). Five years ago, the state of the art was exploiting only a single data source either social media or mobile phones. However, better decisions can result from the analyses of multiple data sources simultaneously. Multiple heterogeneous data sources, and their simultaneous usage, of- fer a more accurate digital reflection of the reality. In this context, we investigate the problem of how to create an holistic conceptual model to represent multiple heterogeneous spatio-temporal data and how to develop a streaming computational model to enable reactive decisions. The main outcomes of this research are FraPPE conceptual model and RIVER streaming computational model with its implementations. FraPPE is a conceptual model, more precisely an ontology, that exploits digital image processing terms to model spatio-temporal data and to enable space, time, and content analysis. It uses image processing common terms to bridge the gap between the data engineer perspective and visual data analysis perspective. It does so to enable visual analytics on spatio-temporal data. During my PhD, we first formalize the spatial and temporal concepts in FraPPE 1.0, and, then, we add concepts related to the provenance and the content in FraPPE 2.0. We check the adherence of both versions of FraPPE to the five Tom Gruber’s principles, and demonstrate the validity of the conceptual model in real world use cases. RIVER is a streaming computational inspired by two principles:(P1) everything is a data stream – a variety-proof stream processing engine must indifferently ingest data with different velocities from any sources and of any size –, and (P2) Continuous Ingestion – the data in input is continuously captured by the system and, once arrived, it is marked with an increasing timestamp. Most of the stream processing engines in the state of the art transform and adapt data at ingestion time. Contrariwise, RIVER is built around the idea of Lazy Transformation. So,a system that implements RIVER postpones data transformations until it can really benefits from them. Our hypothesis is that Lazy Transformation saves time and resources. RIVER relies on two main concepts: the Generic Data Stream (S⟨T⟩) and the Generic Time-Varying Collection (C⟨T⟩) and it proposes five different operators in order to ingest, process and emit data. The IN⟨T⟩ operator is the entry point of the system, it takes an external data flow and injects the items into the system creating a new S⟨T⟩. The S2C⟨T⟩, C2C⟨T, T′⟩ and C2S⟨T⟩ operators in RIVER, inspired to the Continuous Query Language(CQL, the work on streaming data proposed by the Stanford DB Group) processing model, allows to move from S⟨T⟩ to C⟨T⟩ and vice-versa. The OUT⟨T⟩ operator transform an S⟨T⟩ into a new external data flow. Exploiting the Pipeline Definition Language (PDL) – our graphical language to abstract the operators’ implementation complexity –, RIVER allows users to define computational plans, in the form of pipelines. In this thesis, we propose three different implementations of RIVER: Natron – a single-threaded vertically scalable implementation –, rvr@Spark and rvr@Hive – two horizontally scalable implementations based on distributed technologies (Spark and Hive). In order to prove the validity of the Lazy Transformation approach, we first evaluate Natron against our Streaming Linked Data engine that performs the data transformation at ingestion time. The result of this evaluation shows that Natron is cheaper – it consumes less resources in terms of memory and CPU load – and better approximates the correct answer under stress conditions. Moreover, we evaluate the cost effectiveness of Natron against rvr@Spark to prove that a distributed solution does not pay in all the situations. Indeed, in a mobile telco analysis, we observe that Natron is more cost-effective than rvr@Spark up to the scale of a nation. The results of those evaluations demonstrate the validity of the Lazy Transformation approach and confirm, in the stream processing engine field, that the a distributed solution does not pay at all scale. In order to prove the feasibility and the effectiveness of FraPPE and RIVER in enabling reactive decision-making processes on heterogeneous streaming spatio-temporal data, we present five real world use cases in Milan and Como. Moreover, during those case studies, we propose the data visualizations to different audiences (public users and stakeholders) in order to prove the guessability of our visual analytics interfaces. Finally, we reflect on limitations and state the future directions of this research work. In particular, those reflections involve the reasoning capabilities enabled by FraPPE, the future evaluations of RIVER against longer and more complex use cases and the evolution out the Pipeline Definition Language (PDL).

Negli ultimi anni, in un numero sempre crescente di situazioni, é nata la necessitá di prendere decisioni in modo reattivo basandosi su flussi di dati continui ed eterogenei. In questo contesto, l’ambiente urbano risulta particolarmente rilevante grazie alla presenza di una fitta rete di interazioni tra le persone e lo spazio cittadino. Questa rete produce un’enorme quantitá di dati spazio-temporali che si evolvono velocemente nel tempo. Inoltre, in ambito cittadino convivono una moltitudine di stakeholder interessati allo sviluppo di un processo decisionale reattivo per la pianificazione urbana, la gestione della mobilitá, il turismo, ecc. L’uso sempre piú ampio della geo-localizzazione nei social network e, piú in generale, la diffusione di dispositivi di comunicazione mobili, ha migliorato la capacitá di creare un’accurata rappresentazione della realtá in tempo reale, in inglese spesso denominata Digital footprint o Digital reflection o Digital twin. Cinque anni fa, lo stato dell’arte sfruttava solo una singola fonte di dati, ad esempio, i social media o i dati telefonici. Tuttavia, un uso simultaneo di piú fonti dati eterogenee, aiuta a creare una piú accurata rappresentazione digitale della realtá. n questo contesto, abbiamo affrontato il problema della creazione di un modello concettuale olistico per rappresentare dati spazio-temporali eterogenei e il problema dello sviluppo di un modello computazionale per flussi di dati continui. I principali risultati di questa ricerca sono un modello concettuale chiamato FraPPE e un modello computazionale denominato RIVER con le sue implementazioni. FraPPE é un modello concettutale, piú precisamente un’ontologia, che sfrutta termini dell’elaborazione delle immagini (in inglese, Image Processing) per modellare dati spazio-temporali e abilitare analisi nell’ambito spaziale, temporale e di contenuto. FraPPE sfrutta termini comuni nell’ambito dell’image processing per colmare il divario tra la prospettiva del data engineer e quella dell’analista. L’annullamento di questo divario permette di abilitare analisi visuale su dati spazio-temporali. Durante questo percorso di dottorato, abbiamo per prima cosa formalizzato in FraPPE 1.0 i concetti spaziali e temporali, abbiamo poi aggiunto i frammenti relativi alla provenienza del dato (Data Provenance in inglese) del dato e al suo contenuto in FraPPE 2.0. Abbiamo controllato che entrambe le versioni di FraPPE rispettassero i cinque principi di Tom Gruber, e abbiamo dimostrato la validitá del modello concettuale attraverso casi d’uso reali. RIVER é un modello computazionale per flussi di dati continui ed é basato su due principi: (P1) tutti i dati possono essere modellati come flussi continui – un motore per l’analisi di flussi di dati deve essere in grado di accettare in ingresso flussi di dati con differenti velocitá, di qualsiasi dimensione e provenienti da qualsiasi fonte –, e (P2) Ingestion Continua – il sistema deve catturare continuamente i dati che, una volta arrivati, vengono marcati con un timestamp crescente. Al contrario della maggior parte dei motori per l’analisi di flussi, che trasforma e adatta il dato non appena questo entra nel sistema, RIVER é costruito intorno all’idea della LazyTransformation. Un sistema che implementa RIVER, ritarda la trasformazione del dato in ingresso fino a quandoil sistema puó beneficiare di tale trasformazione. Abbiamo formulato l’ipotesi secondo cui la Lazy Transformation permette di risparmiare tempo e risorse durante la computazione. RIVER si basa principalmente su due concetti: il Generic Data Stream(S⟨T⟩) e la Generic Time-Varying Collection (C⟨T⟩) e propone cinque operatori per l’ingestion, l’eleaborazione e l’emissione di flussi di dati. L’operatore IN⟨T⟩ rappresenta la porta d’ingresso del sistema, prende un flusso di dati esterno e crea un nuovo S⟨T⟩. Gli operatori S2C⟨T⟩, C2C⟨T, T′⟩ e C2S⟨T⟩ sono ispirati al Continuous Query Language(CQL, il lavoro seminale dell’UniversitÃ di Standford sull’elaborazione di flussi continui di dati) e permettono la trasformazione da S⟨T⟩ a C⟨T⟩ e vice-versa. L’operatore OUT⟨T⟩ trasforma un S⟨T⟩ in un nuovo flusso di dati esterno. Sfruttando il Pipeline Definition Language (PDL) – il nostro linguaggio visuale che astrae la complessitá implementativa degli operatori –, RIVER abilita l’utente a definire piani computazionali sotto forma di pipeline di operatori. In questa tesi, proponiamo tre implementazioni di RIVER: Natron – un’implementazione single-threaded scalabile verticalmente –, rvr@Spark e rvr@Hive – due implementazioni a scalabilitá orizzontale basate su framework distribuiti (Spark e Hive). Con l’intento di provare la validitá dell’approccio basato sulla Lazy Transformation, abbiamo valutato Natron rispetto al nostro motore Streaming Linked Data che trasforma il dato non appena questo entra nel sistema. Il risultato di questa valutazione dimostra che Natron consuma meno risorse, in termini di processore e memoria, e approssima meglio la risposta corretta in condizioni di stress. Per determinare l’efficacia di Natron sotto l’aspetto dei costi, l’abbiamo valutato rispetto a rvr@Spark, in modo da provare che una soluzione distribuita non é la migliore in tutte le condizioni. Analizzando dati telefonici a diversa scala (cittadina, regionale, nazionale ed estrema), abbiamo osservato che Natron risulta piú efficace, sotto l’aspetto dei costi, rispetto a rvr@Spark per dati fino alla scala nazionale. I risultati di questa valutazioni dimostrano la validitá dell’approccio basato sulla Lazy Transformation e confermano che, nell’ambito dei motori di analisi di flussi di dati, la soluzione distribuita non é sempre la migliore. Per dimostrare la capacita ́di FraPPE e RIVER di abilitare un processo decisionale reattivo basato su flussi di dati spazio-temporali eterogenei, abbiamo presentato cinque casi d’uso reali portati avanti nelle cittá di Milano e Como. Durante questi casi di studio, abbiamo presentato le visualizzazioni a platee diverse (partecipanti ad eventi e stackeholder cittadini) per dimostrare la validitá delle nostre interfacce visuali. Infine, abbiamo riflettuto sulle limitazioni delle soluzioni proposte e preso decisioni riguardo la direzione futura di questo lavoro di ricerca. In particolare, le nostre riflessioni hanno riguardato le capacitá di ragionamento automatico abilitate da FraPPE, le future valutazioni di RIVER basate su casi d’uso piú lunghi e complessi, e l’evoluzione del Pipeline Definition Language (PDL).

On the continuous and reactive analysis of a variety of spatio-temporal data

BALDUINI, MARCO

Abstract

In recent years, an increasing number of situations call for reactive decisions making process based on a heterogeneous streaming data. In this context, the urban environment results particularly relevant, because there is a dense network of interactions between people and urban spaces that produces a great amount of spatio-temporal fast evolving data. Moreover, in a modern city there is a multitude of stakeholders who are interested in reactive decisions for urban planning, mobility management, tourism, etc. The growing usage of location-based social networks, and, in general, the diffusion of mobile devices improved the ability to create an accurate and up-to-date representation of reality (a.k.a. Digital footprint or Digital reflection or Digital twin). Five years ago, the state of the art was exploiting only a single data source either social media or mobile phones. However, better decisions can result from the analyses of multiple data sources simultaneously. Multiple heterogeneous data sources, and their simultaneous usage, of- fer a more accurate digital reflection of the reality. In this context, we investigate the problem of how to create an holistic conceptual model to represent multiple heterogeneous spatio-temporal data and how to develop a streaming computational model to enable reactive decisions. The main outcomes of this research are FraPPE conceptual model and RIVER streaming computational model with its implementations. FraPPE is a conceptual model, more precisely an ontology, that exploits digital image processing terms to model spatio-temporal data and to enable space, time, and content analysis. It uses image processing common terms to bridge the gap between the data engineer perspective and visual data analysis perspective. It does so to enable visual analytics on spatio-temporal data. During my PhD, we first formalize the spatial and temporal concepts in FraPPE 1.0, and, then, we add concepts related to the provenance and the content in FraPPE 2.0. We check the adherence of both versions of FraPPE to the five Tom Gruber’s principles, and demonstrate the validity of the conceptual model in real world use cases. RIVER is a streaming computational inspired by two principles:(P1) everything is a data stream – a variety-proof stream processing engine must indifferently ingest data with different velocities from any sources and of any size –, and (P2) Continuous Ingestion – the data in input is continuously captured by the system and, once arrived, it is marked with an increasing timestamp. Most of the stream processing engines in the state of the art transform and adapt data at ingestion time. Contrariwise, RIVER is built around the idea of Lazy Transformation. So,a system that implements RIVER postpones data transformations until it can really benefits from them. Our hypothesis is that Lazy Transformation saves time and resources. RIVER relies on two main concepts: the Generic Data Stream (S⟨T⟩) and the Generic Time-Varying Collection (C⟨T⟩) and it proposes five different operators in order to ingest, process and emit data. The IN⟨T⟩ operator is the entry point of the system, it takes an external data flow and injects the items into the system creating a new S⟨T⟩. The S2C⟨T⟩, C2C⟨T, T′⟩ and C2S⟨T⟩ operators in RIVER, inspired to the Continuous Query Language(CQL, the work on streaming data proposed by the Stanford DB Group) processing model, allows to move from S⟨T⟩ to C⟨T⟩ and vice-versa. The OUT⟨T⟩ operator transform an S⟨T⟩ into a new external data flow. Exploiting the Pipeline Definition Language (PDL) – our graphical language to abstract the operators’ implementation complexity –, RIVER allows users to define computational plans, in the form of pipelines. In this thesis, we propose three different implementations of RIVER: Natron – a single-threaded vertically scalable implementation –, rvr@Spark and rvr@Hive – two horizontally scalable implementations based on distributed technologies (Spark and Hive). In order to prove the validity of the Lazy Transformation approach, we first evaluate Natron against our Streaming Linked Data engine that performs the data transformation at ingestion time. The result of this evaluation shows that Natron is cheaper – it consumes less resources in terms of memory and CPU load – and better approximates the correct answer under stress conditions. Moreover, we evaluate the cost effectiveness of Natron against rvr@Spark to prove that a distributed solution does not pay in all the situations. Indeed, in a mobile telco analysis, we observe that Natron is more cost-effective than rvr@Spark up to the scale of a nation. The results of those evaluations demonstrate the validity of the Lazy Transformation approach and confirm, in the stream processing engine field, that the a distributed solution does not pay at all scale. In order to prove the feasibility and the effectiveness of FraPPE and RIVER in enabling reactive decision-making processes on heterogeneous streaming spatio-temporal data, we present five real world use cases in Milan and Como. Moreover, during those case studies, we propose the data visualizations to different audiences (public users and stakeholders) in order to prove the guessability of our visual analytics interfaces. Finally, we reflect on limitations and state the future directions of this research work. In particular, those reflections involve the reasoning capabilities enabled by FraPPE, the future evaluations of RIVER against longer and more complex use cases and the evolution out the Pipeline Definition Language (PDL).

Scheda breve

Scheda completa

	Relatore
	
				DELLA VALLE, EMANUELE
			
	Coordinatore
	
				PERNICI, BARBARA
			
	Tutor
	
				CERI, STEFANO
			
	Data
	
				19-feb-2019
			
	Abstract in italiano
	
				Negli ultimi anni, in un numero sempre crescente di situazioni, é nata la necessitá di prendere decisioni in modo reattivo basandosi su flussi di dati continui ed eterogenei. In questo contesto, l’ambiente urbano risulta particolarmente rilevante grazie alla presenza di una fitta rete di interazioni tra le persone e lo spazio cittadino. Questa rete produce un’enorme quantitá di dati spazio-temporali che si evolvono velocemente nel tempo. Inoltre, in ambito cittadino convivono una moltitudine di stakeholder interessati allo sviluppo di un processo decisionale reattivo per la pianificazione urbana, la gestione della mobilitá, il turismo, ecc.
L’uso sempre piú ampio della geo-localizzazione nei social network e, piú in generale, la diffusione di dispositivi di comunicazione mobili, ha migliorato la capacitá di creare un’accurata rappresentazione della realtá in tempo reale, in inglese spesso denominata Digital footprint o Digital reflection o Digital twin. Cinque anni fa, lo stato dell’arte sfruttava solo una singola fonte di dati, ad esempio, i social media o i dati telefonici. Tuttavia, un uso simultaneo di piú fonti dati eterogenee, aiuta a creare una piú accurata rappresentazione digitale della realtá.
n questo contesto, abbiamo affrontato il problema della creazione di un modello concettuale olistico per rappresentare dati spazio-temporali eterogenei e il problema dello sviluppo di un modello computazionale per flussi di dati continui. I principali risultati di questa ricerca sono un modello concettuale chiamato FraPPE e un modello computazionale denominato RIVER con le sue implementazioni.
FraPPE é un modello concettutale, piú precisamente un’ontologia, che sfrutta termini dell’elaborazione delle immagini (in inglese, Image Processing) per modellare dati spazio-temporali e abilitare analisi nell’ambito spaziale, temporale e di contenuto. FraPPE sfrutta termini comuni nell’ambito dell’image processing per colmare il divario tra la prospettiva del data engineer e quella dell’analista. L’annullamento di questo divario permette di abilitare analisi visuale su dati spazio-temporali. Durante questo percorso di dottorato, abbiamo per prima cosa formalizzato in FraPPE 1.0 i concetti spaziali e temporali, abbiamo poi aggiunto i frammenti relativi alla provenienza del dato (Data Provenance in inglese) del dato e al suo contenuto in FraPPE 2.0. Abbiamo controllato che entrambe le versioni di FraPPE rispettassero i cinque principi di Tom Gruber, e abbiamo dimostrato la validitá del modello concettuale attraverso casi d’uso reali.
RIVER é un modello computazionale per flussi di dati continui ed é basato su due principi: (P1) tutti i dati possono essere modellati come flussi continui – un motore per l’analisi di flussi di dati deve essere in grado di accettare in ingresso flussi di dati con differenti velocitá, di qualsiasi dimensione e provenienti da qualsiasi fonte –, e (P2) Ingestion Continua – il sistema deve catturare continuamente i dati che, una volta arrivati, vengono marcati con un timestamp crescente. Al contrario della maggior parte dei motori per l’analisi di flussi, che trasforma e adatta il dato non appena questo entra nel sistema, RIVER é costruito intorno all’idea della LazyTransformation. Un sistema che implementa RIVER, ritarda la trasformazione del dato in ingresso fino a quandoil sistema puó beneficiare di tale trasformazione. Abbiamo formulato l’ipotesi secondo cui la Lazy Transformation permette di risparmiare tempo e risorse durante la computazione. RIVER si basa principalmente su due concetti: il Generic Data Stream(S⟨T⟩) e la Generic Time-Varying Collection (C⟨T⟩) e propone cinque operatori per l’ingestion, l’eleaborazione e l’emissione di flussi di dati. L’operatore IN⟨T⟩ rappresenta la porta d’ingresso del sistema, prende un flusso di dati esterno e crea un nuovo S⟨T⟩. Gli operatori S2C⟨T⟩, C2C⟨T, T′⟩ e C2S⟨T⟩ sono ispirati al Continuous Query Language(CQL, il lavoro seminale dell’UniversitÃ di Standford sull’elaborazione di flussi continui di dati) e permettono la trasformazione da S⟨T⟩ a C⟨T⟩ e vice-versa. L’operatore OUT⟨T⟩ trasforma un S⟨T⟩ in un nuovo flusso di dati esterno. Sfruttando il Pipeline Definition Language (PDL) – il nostro linguaggio visuale che astrae la complessitá implementativa degli operatori –, RIVER abilita l’utente a definire piani computazionali sotto forma di pipeline di operatori.
In questa tesi, proponiamo tre implementazioni di RIVER: Natron – un’implementazione single-threaded scalabile verticalmente –, rvr@Spark e rvr@Hive – due implementazioni a scalabilitá orizzontale basate su framework distribuiti (Spark e Hive). Con l’intento di provare la validitá dell’approccio basato sulla Lazy Transformation, abbiamo valutato Natron rispetto al nostro motore Streaming Linked Data che trasforma il dato non appena questo entra nel sistema. Il risultato di questa valutazione dimostra che Natron consuma meno risorse, in termini di processore e memoria, e approssima meglio la risposta corretta in condizioni di stress. Per determinare l’efficacia di Natron sotto l’aspetto dei costi, l’abbiamo valutato rispetto a rvr@Spark, in modo da provare che una soluzione distribuita non é la migliore in tutte le condizioni. Analizzando dati telefonici a diversa scala (cittadina, regionale, nazionale ed estrema), abbiamo osservato che Natron risulta piú efficace, sotto l’aspetto dei costi, rispetto a rvr@Spark per dati fino alla scala nazionale. I risultati di questa valutazioni dimostrano la validitá dell’approccio basato sulla Lazy Transformation e confermano che, nell’ambito dei motori di analisi di flussi di dati, la soluzione distribuita non é sempre la migliore.
Per dimostrare la capacita ́di FraPPE e RIVER di abilitare un processo decisionale reattivo basato su flussi di dati spazio-temporali eterogenei, abbiamo presentato cinque casi d’uso reali portati avanti nelle cittá di Milano e Como. Durante questi casi di studio, abbiamo presentato le visualizzazioni a platee diverse (partecipanti ad eventi e stackeholder cittadini) per dimostrare la validitá delle nostre interfacce visuali.
Infine, abbiamo riflettuto sulle limitazioni delle soluzioni proposte e preso decisioni riguardo la direzione futura di questo lavoro di ricerca. In particolare, le nostre riflessioni hanno riguardato le capacitá di ragionamento automatico abilitate da FraPPE, le future valutazioni di RIVER basate su casi d’uso piú lunghi e complessi, e l’evoluzione del Pipeline Definition Language (PDL).
			
	Tipo di documento
	
				Tesi di dottorato
			
	Appare nelle tipologie:
	
				Tesi di Dottorato

File allegati

File	Dimensione	Formato
2019_02_PhD_Balduini.pdf accessibile in internet per tutti Descrizione: Thesis text Dimensione 8.84 MB Formato Adobe PDF Visualizza/Apri	8.84 MB	Adobe PDF	Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/144844