Implementation of a hybrid data pipeline for users session-activity data processing with Apache Beam comparing to Apache Spark

Biblioteche e Archivi
POLITesi - Archivio digitale delle tesi di laurea e di dottorato

In media and TV industry, there are a huge amount of events data that are generated by receiver boxes and stakeholders need to analyze the data in order to plan for the industry. There are unbounded and out of order events data that are generated by the receiver devices and so a streaming data pipeline in required to process these data. Architectural and technical design considerations of such a streaming pipeline is very important. This system should be able to process the peaks of incoming data driven by human behavior. Also such a system should handle a stream of events stamped by event-time. So briefly it should satisfy auto-scaling and session-based event-time processing requirements. We are going to implement a Beam model for streaming pipeline to fulfil all the requirements mentioned as well as a model that can handles files as input stream. It is not straightforward to process files in a streaming pipeline so we implemented a hybrid model in which we chunk files and force them to shuffle over workers. This model is tested and worked successfully. Finally this model is compared to previous Apache Spark solution and discussed why Apache Beam mode fits better to our event stream data.

Nell'industria dei media e della TV, ci sono una quantità enorme di dati sugli eventi che sono generati dai ricevitori e le parti interessate devono analizzare i dati per pianificare il settore. Vi sono dati di eventi illimitati e fuori ordine generati dai dispositivi riceventi e quindi una pipeline di dati in streaming necessaria per elaborare questi dati. Le considerazioni sulla progettazione architettonica e tecnica di una tale conduttura di streaming sono molto importanti. Questo sistema dovrebbe essere in grado di elaborare i picchi dei dati in arrivo guidati dal comportamento umano. Anche un tale sistema dovrebbe gestire un flusso di eventi timbrati dal tempo dell'evento. Quindi, in breve, dovrebbe soddisfare i requisiti di elaborazione in tempo-evento auto-scaling e session-based. Stiamo implementando un modello Beam per lo streaming di pipeline per soddisfare tutti i requisiti menzionati e un modello in grado di gestire i file come flusso di input. Non è semplice elaborare i file in una pipeline di streaming, quindi abbiamo implementato un modello ibrido in cui abbiamo suddiviso i file e li costringiamo a mescolare i lavoratori. Questo modello è testato e ha funzionato con successo. Infine questo modello viene confrontato con la precedente soluzione Apache Spark e ha discusso perché la modalità Apache Beam si adatta meglio ai nostri dati del flusso di eventi.

Implementation of a hybrid data pipeline for users session-activity data processing with Apache Beam comparing to Apache Spark

NAJDMOHTASHAM, SAEED

2018/2019

Abstract

In media and TV industry, there are a huge amount of events data that are generated by receiver boxes and stakeholders need to analyze the data in order to plan for the industry. There are unbounded and out of order events data that are generated by the receiver devices and so a streaming data pipeline in required to process these data. Architectural and technical design considerations of such a streaming pipeline is very important. This system should be able to process the peaks of incoming data driven by human behavior. Also such a system should handle a stream of events stamped by event-time. So briefly it should satisfy auto-scaling and session-based event-time processing requirements. We are going to implement a Beam model for streaming pipeline to fulfil all the requirements mentioned as well as a model that can handles files as input stream. It is not straightforward to process files in a streaming pipeline so we implemented a hybrid model in which we chunk files and force them to shuffle over workers. This model is tested and worked successfully. Finally this model is compared to previous Apache Spark solution and discussed why Apache Beam mode fits better to our event stream data.

Scheda breve

Scheda completa

	Relatore
	
				MIRANDOLA, RAFFAELA
			
	Scuola / Dip.
	
				ING  - Scuola di Ingegneria Industriale e dell'Informazione
			
	Data
	
				25-lug-2019
			
	Anno accademico
	
				2018/2019
			
	Abstract in italiano
	
				Nell'industria dei media e della TV, ci sono una quantità enorme di dati sugli eventi che sono generati dai ricevitori e le parti interessate devono analizzare i dati per pianificare il settore. Vi sono dati di eventi illimitati e fuori ordine generati dai dispositivi riceventi e quindi una pipeline di dati in streaming necessaria per elaborare questi dati.
Le considerazioni sulla progettazione architettonica e tecnica di una tale conduttura di streaming sono molto importanti. Questo sistema dovrebbe essere in grado di elaborare i picchi dei dati in arrivo guidati dal comportamento umano. Anche un tale sistema dovrebbe gestire un flusso di eventi timbrati dal tempo dell'evento. Quindi, in breve, dovrebbe soddisfare i requisiti di elaborazione in tempo-evento auto-scaling e session-based.
Stiamo implementando un modello Beam per lo streaming di pipeline per soddisfare tutti i requisiti menzionati e un modello in grado di gestire i file come flusso di input. Non è semplice elaborare i file in una pipeline di streaming, quindi abbiamo implementato un modello ibrido in cui abbiamo suddiviso i file e li costringiamo a mescolare i lavoratori. Questo modello è testato e ha funzionato con successo.
Infine questo modello viene confrontato con la precedente soluzione Apache Spark e ha discusso perché la modalità Apache Beam si adatta meglio ai nostri dati del flusso di eventi.
			
	Tipo di documento
	
				Tesi di laurea Magistrale
			
	Appare nelle tipologie:
	
				Tesi di laurea Magistrale

File allegati

File	Dimensione	Formato
thesis.pdf accessibile in internet solo dagli utenti autorizzati Dimensione 1.68 MB Formato Adobe PDF Visualizza/Apri	1.68 MB	Adobe PDF	Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/148557