In media and TV industry, there are a huge amount of events data that are generated by receiver boxes and stakeholders need to analyze the data in order to plan for the industry. There are unbounded and out of order events data that are generated by the receiver devices and so a streaming data pipeline in required to process these data. Architectural and technical design considerations of such a streaming pipeline is very important. This system should be able to process the peaks of incoming data driven by human behavior. Also such a system should handle a stream of events stamped by event-time. So briefly it should satisfy auto-scaling and session-based event-time processing requirements. We are going to implement a Beam model for streaming pipeline to fulfil all the requirements mentioned as well as a model that can handles files as input stream. It is not straightforward to process files in a streaming pipeline so we implemented a hybrid model in which we chunk files and force them to shuffle over workers. This model is tested and worked successfully. Finally this model is compared to previous Apache Spark solution and discussed why Apache Beam mode fits better to our event stream data.

Nell'industria dei media e della TV, ci sono una quantità enorme di dati sugli eventi che sono generati dai ricevitori e le parti interessate devono analizzare i dati per pianificare il settore. Vi sono dati di eventi illimitati e fuori ordine generati dai dispositivi riceventi e quindi una pipeline di dati in streaming necessaria per elaborare questi dati. Le considerazioni sulla progettazione architettonica e tecnica di una tale conduttura di streaming sono molto importanti. Questo sistema dovrebbe essere in grado di elaborare i picchi dei dati in arrivo guidati dal comportamento umano. Anche un tale sistema dovrebbe gestire un flusso di eventi timbrati dal tempo dell'evento. Quindi, in breve, dovrebbe soddisfare i requisiti di elaborazione in tempo-evento auto-scaling e session-based. Stiamo implementando un modello Beam per lo streaming di pipeline per soddisfare tutti i requisiti menzionati e un modello in grado di gestire i file come flusso di input. Non è semplice elaborare i file in una pipeline di streaming, quindi abbiamo implementato un modello ibrido in cui abbiamo suddiviso i file e li costringiamo a mescolare i lavoratori. Questo modello è testato e ha funzionato con successo. Infine questo modello viene confrontato con la precedente soluzione Apache Spark e ha discusso perché la modalità Apache Beam si adatta meglio ai nostri dati del flusso di eventi.

Implementation of a hybrid data pipeline for users session-activity data processing with Apache Beam comparing to Apache Spark

NAJDMOHTASHAM, SAEED
2018/2019

Abstract

In media and TV industry, there are a huge amount of events data that are generated by receiver boxes and stakeholders need to analyze the data in order to plan for the industry. There are unbounded and out of order events data that are generated by the receiver devices and so a streaming data pipeline in required to process these data. Architectural and technical design considerations of such a streaming pipeline is very important. This system should be able to process the peaks of incoming data driven by human behavior. Also such a system should handle a stream of events stamped by event-time. So briefly it should satisfy auto-scaling and session-based event-time processing requirements. We are going to implement a Beam model for streaming pipeline to fulfil all the requirements mentioned as well as a model that can handles files as input stream. It is not straightforward to process files in a streaming pipeline so we implemented a hybrid model in which we chunk files and force them to shuffle over workers. This model is tested and worked successfully. Finally this model is compared to previous Apache Spark solution and discussed why Apache Beam mode fits better to our event stream data.
ING - Scuola di Ingegneria Industriale e dell'Informazione
25-lug-2019
2018/2019
Nell'industria dei media e della TV, ci sono una quantità enorme di dati sugli eventi che sono generati dai ricevitori e le parti interessate devono analizzare i dati per pianificare il settore. Vi sono dati di eventi illimitati e fuori ordine generati dai dispositivi riceventi e quindi una pipeline di dati in streaming necessaria per elaborare questi dati. Le considerazioni sulla progettazione architettonica e tecnica di una tale conduttura di streaming sono molto importanti. Questo sistema dovrebbe essere in grado di elaborare i picchi dei dati in arrivo guidati dal comportamento umano. Anche un tale sistema dovrebbe gestire un flusso di eventi timbrati dal tempo dell'evento. Quindi, in breve, dovrebbe soddisfare i requisiti di elaborazione in tempo-evento auto-scaling e session-based. Stiamo implementando un modello Beam per lo streaming di pipeline per soddisfare tutti i requisiti menzionati e un modello in grado di gestire i file come flusso di input. Non è semplice elaborare i file in una pipeline di streaming, quindi abbiamo implementato un modello ibrido in cui abbiamo suddiviso i file e li costringiamo a mescolare i lavoratori. Questo modello è testato e ha funzionato con successo. Infine questo modello viene confrontato con la precedente soluzione Apache Spark e ha discusso perché la modalità Apache Beam si adatta meglio ai nostri dati del flusso di eventi.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
thesis.pdf

accessibile in internet solo dagli utenti autorizzati

Dimensione 1.68 MB
Formato Adobe PDF
1.68 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/148557