The objective of this thesis is twofold: (1) to provide a framework for the evaluation of Big Data technologies designing an architecture that includes the most common components in Big Data infrastructures through which it is possible to associate technologies and compatible benchmarking tools and (2) to populate this model with hundreds of popular Big Data technologies and tens of benchmarks to make it usable. This research work is placed in the context of H2020 DataBench, a project funded by the European Commission that addresses the significant gap in the current benchmarking community’s activities, and it is aimed at highlighting the relation between technical benchmarking and business KPIs to demonstrate the positive business impact in terms of return on investment (ROI) providing verified benchmarks and performance evaluation schemes of Big Data technologies that have high business impacts[1]. To reach this objective, DataBench designs a benchmarking process to support the development and adoptions of Big Data technologies focusing on the measurement of parameters that are relevant for the business by studying available benchmarking tools and providing a set of metrics connecting technical and business performance. In the context of this thesis, 27 use-case specific Big Data architectures have been merged into a general blueprint, more than 1400 Big Data technologies available on the market have been considered, mapped to the general blueprint and evaluated in terms of popularity and functionality, ending with selecting 285 solutions for which a technical schematization has been done. 51 benchmarking tools have been considered, mapped to the general blueprint and schematized in their turn. Finally, selected technologies have been associated with compatible benchmarks. In the end, the relevance of a conscious Big Data technology selection, thus the importance of having a tool facilitating the identification of adequate benchmarks is demonstrated by taking into account three use-case specific scenarios evaluating the differences in terms of costs and performances depending on the chosen technology.

L’obiettivo di questa tesi `e duplice: (1) fornire un modello per la valutazione di tecnologie Big Data creando un’architettura che includa le componenti più comuni di un’infrastruttura Big Data generica attraverso la quale sia possibile associare tecnologie e strumenti di benchmark compatibili in grado di valutarne le performances tecniche e (2) popolare il modello con centinaia di tecnologie Big Data note e decine di strumenti di benchmark e renderlo quindi utilizzabile. Questo lavoro di ricerca si colloca all’interno del progetto H2020 DataBench, finanziato dalla Commissione Europea e finalizzato a colmare le lacune nelle attività di benchmarking correnti, evidenziando la relazione tra benchmark tecnico e KPIs di business dimostrando gli effetti positivi in termini di utile sul capitale investito (ROI) e fornendo strumenti di benchmark verificati e schemi di valutazione delle performance di tecnologie Big Data che hanno un impatto di business piu` significativo[1]. Per il raggiungimento di questo obiettivo, DataBench ha progettato un processo di benchmark per supportare l’adozione di tecnologie Big Data focalizzandosi sulla misurazione di parametri che sono rilevanti per il business, studiando quindi le soluzioni di benchmarking attualmente disponibili e un set di parametri che associano performances tecniche e indicatori di business. In questo lavoro di tesi, 27 architetture dipendenti dal contesto di utilizzo sono state unite in un’architettura generica, piu` di 1400 tecnologie Big Data disponibili sul mercato sono state individuate, mappate sulle componenti dell’architettura generica e valutate in termini di popolarità e funzionalità, provvedendo poi a schematizzare le specifiche tecniche di 285 tecnologie selezionate. Sono inoltre stati individuati 51 strumenti di benchmark, successivamente mappati sull’architettura generica e schematizzati a loro volta. Si è poi provveduto ad associare le tecnologie schematizzate e benchmark, dipendentemente dalla compatibilità. In ultimo, la rilevanza di una scelta consapevole di una tecnologia Big Data, quindi l’importanza di avere a disposizione uno strumento che faciliti l’individuazione di strumenti di benchmark appropriati, è dimostrata prendendo in considerazione tre casi reali in cui si valuta la differenza in termini di performance e in ultimo di costi a seconda della tecnologia scelta.

A framework for the evaluation of big data technologies. Architectural blueprints, technologies & benchmarks mapping

Costa, Giulio
2019/2020

Abstract

The objective of this thesis is twofold: (1) to provide a framework for the evaluation of Big Data technologies designing an architecture that includes the most common components in Big Data infrastructures through which it is possible to associate technologies and compatible benchmarking tools and (2) to populate this model with hundreds of popular Big Data technologies and tens of benchmarks to make it usable. This research work is placed in the context of H2020 DataBench, a project funded by the European Commission that addresses the significant gap in the current benchmarking community’s activities, and it is aimed at highlighting the relation between technical benchmarking and business KPIs to demonstrate the positive business impact in terms of return on investment (ROI) providing verified benchmarks and performance evaluation schemes of Big Data technologies that have high business impacts[1]. To reach this objective, DataBench designs a benchmarking process to support the development and adoptions of Big Data technologies focusing on the measurement of parameters that are relevant for the business by studying available benchmarking tools and providing a set of metrics connecting technical and business performance. In the context of this thesis, 27 use-case specific Big Data architectures have been merged into a general blueprint, more than 1400 Big Data technologies available on the market have been considered, mapped to the general blueprint and evaluated in terms of popularity and functionality, ending with selecting 285 solutions for which a technical schematization has been done. 51 benchmarking tools have been considered, mapped to the general blueprint and schematized in their turn. Finally, selected technologies have been associated with compatible benchmarks. In the end, the relevance of a conscious Big Data technology selection, thus the importance of having a tool facilitating the identification of adequate benchmarks is demonstrated by taking into account three use-case specific scenarios evaluating the differences in terms of costs and performances depending on the chosen technology.
BERRE, ARNE
ING - Scuola di Ingegneria Industriale e dell'Informazione
2-ott-2020
2019/2020
L’obiettivo di questa tesi `e duplice: (1) fornire un modello per la valutazione di tecnologie Big Data creando un’architettura che includa le componenti più comuni di un’infrastruttura Big Data generica attraverso la quale sia possibile associare tecnologie e strumenti di benchmark compatibili in grado di valutarne le performances tecniche e (2) popolare il modello con centinaia di tecnologie Big Data note e decine di strumenti di benchmark e renderlo quindi utilizzabile. Questo lavoro di ricerca si colloca all’interno del progetto H2020 DataBench, finanziato dalla Commissione Europea e finalizzato a colmare le lacune nelle attività di benchmarking correnti, evidenziando la relazione tra benchmark tecnico e KPIs di business dimostrando gli effetti positivi in termini di utile sul capitale investito (ROI) e fornendo strumenti di benchmark verificati e schemi di valutazione delle performance di tecnologie Big Data che hanno un impatto di business piu` significativo[1]. Per il raggiungimento di questo obiettivo, DataBench ha progettato un processo di benchmark per supportare l’adozione di tecnologie Big Data focalizzandosi sulla misurazione di parametri che sono rilevanti per il business, studiando quindi le soluzioni di benchmarking attualmente disponibili e un set di parametri che associano performances tecniche e indicatori di business. In questo lavoro di tesi, 27 architetture dipendenti dal contesto di utilizzo sono state unite in un’architettura generica, piu` di 1400 tecnologie Big Data disponibili sul mercato sono state individuate, mappate sulle componenti dell’architettura generica e valutate in termini di popolarità e funzionalità, provvedendo poi a schematizzare le specifiche tecniche di 285 tecnologie selezionate. Sono inoltre stati individuati 51 strumenti di benchmark, successivamente mappati sull’architettura generica e schematizzati a loro volta. Si è poi provveduto ad associare le tecnologie schematizzate e benchmark, dipendentemente dalla compatibilità. In ultimo, la rilevanza di una scelta consapevole di una tecnologia Big Data, quindi l’importanza di avere a disposizione uno strumento che faciliti l’individuazione di strumenti di benchmark appropriati, è dimostrata prendendo in considerazione tre casi reali in cui si valuta la differenza in termini di performance e in ultimo di costi a seconda della tecnologia scelta.
File allegati
File Dimensione Formato  
Thesis_Costa.pdf

non accessibile

Dimensione 26.9 MB
Formato Adobe PDF
26.9 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/166812