In 21st century society, we find ourselves in a situation where unimaginable amounts of data are produced every day. Data that needs to be processed in order to provide significant utility. However, the weight of the data is so impactful that it is inevitable to think that the classic paradigms used in the world of programming are no longer sufficient for this type of scenario. In such a context what is the best way to perform this type of processing? And most importantly, what are the most important aspects to consider when comparing technologies that deal with these operations? This paper will answer these questions by considering three technologies of this type. Two of these, recently developed and not yet established in the IT market, will be compared with a technology widely used by companies to perform the above data processing. After analyzing the similarities but above all the differences in technical characteristics, comparisons between them will be analyzed in order to reach a conclusion on which of them represents the best alternative in terms of processing speed, complexity of use and variety of operations. This will be done by considering several data analysis algorithms that are poised to provide a 360-degree view of the most important features of the three technologies.

Nella società del 21° secolo, ci troviamo in una situazione in cui ogni giorno vengono prodotte quantità inimmaginabili di dati. Dati che devono essere elaborati per fornire un'utilità significativa. Tuttavia, il peso dei dati è così impattante che è inevitabile pensare che i paradigmi classici utilizzati nel mondo della programmazione non sono più sufficienti per questo tipo di scenario. In un simile contesto qual è il modo migliore per eseguire questo tipo di elaborazione? E soprattutto, quali sono gli aspetti più importanti da considerare quando si confrontano le tecnologie che si occupano di queste operazioni? Questo elaborato di tesi risponderà a queste domande considerando tre tecnologie di questo tipo. Due di queste, di recente sviluppo e non ancora affermate nel mercato informatico, saranno confrontate con una tecnologia ampiamente utilizzata dalle aziende per eseguire l'elaborazione dei dati di cui sopra. Dopo aver analizzato le somiglianze ma soprattutto le differenze nelle caratteristiche tecniche, si analizzeranno i confronti tra di esse per arrivare a una conclusione su quale di esse rappresenta la migliore alternativa in termini di velocità di elaborazione, complessità d'uso e varietà di operazioni. Questo sarà fatto considerando diversi algoritmi di analisi dei dati che sono in grado di fornire una visione a 360 gradi delle caratteristiche più importanti delle tre tecnologie.

Benchmarking and critical analysis of distributed data processing platforms

ROMANÒ, LORENZO
2020/2021

Abstract

In 21st century society, we find ourselves in a situation where unimaginable amounts of data are produced every day. Data that needs to be processed in order to provide significant utility. However, the weight of the data is so impactful that it is inevitable to think that the classic paradigms used in the world of programming are no longer sufficient for this type of scenario. In such a context what is the best way to perform this type of processing? And most importantly, what are the most important aspects to consider when comparing technologies that deal with these operations? This paper will answer these questions by considering three technologies of this type. Two of these, recently developed and not yet established in the IT market, will be compared with a technology widely used by companies to perform the above data processing. After analyzing the similarities but above all the differences in technical characteristics, comparisons between them will be analyzed in order to reach a conclusion on which of them represents the best alternative in terms of processing speed, complexity of use and variety of operations. This will be done by considering several data analysis algorithms that are poised to provide a 360-degree view of the most important features of the three technologies.
CUGOLA, GIANPAOLO
ING - Scuola di Ingegneria Industriale e dell'Informazione
21-dic-2021
2020/2021
Nella società del 21° secolo, ci troviamo in una situazione in cui ogni giorno vengono prodotte quantità inimmaginabili di dati. Dati che devono essere elaborati per fornire un'utilità significativa. Tuttavia, il peso dei dati è così impattante che è inevitabile pensare che i paradigmi classici utilizzati nel mondo della programmazione non sono più sufficienti per questo tipo di scenario. In un simile contesto qual è il modo migliore per eseguire questo tipo di elaborazione? E soprattutto, quali sono gli aspetti più importanti da considerare quando si confrontano le tecnologie che si occupano di queste operazioni? Questo elaborato di tesi risponderà a queste domande considerando tre tecnologie di questo tipo. Due di queste, di recente sviluppo e non ancora affermate nel mercato informatico, saranno confrontate con una tecnologia ampiamente utilizzata dalle aziende per eseguire l'elaborazione dei dati di cui sopra. Dopo aver analizzato le somiglianze ma soprattutto le differenze nelle caratteristiche tecniche, si analizzeranno i confronti tra di esse per arrivare a una conclusione su quale di esse rappresenta la migliore alternativa in termini di velocità di elaborazione, complessità d'uso e varietà di operazioni. Questo sarà fatto considerando diversi algoritmi di analisi dei dati che sono in grado di fornire una visione a 360 gradi delle caratteristiche più importanti delle tre tecnologie.
File allegati
File Dimensione Formato  
2021_12_Romanò.pdf

accessibile in internet solo dagli utenti autorizzati

Dimensione 972.09 kB
Formato Adobe PDF
972.09 kB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/182398