Developing paradigm-agnostic tools for benchmarking data processing platforms

In an era dominated by data-driven decision-making, the ability to process, analyze, and compare data across heterogeneous platforms has become increasingly relevant. While efforts have been made to establish universal abstractions, such as SQL and DataFrames, these approaches often fall short of achieving true system-agnostic interoperability due to fundamental differences in execution models, optimization techniques, and infrastructure requirements. This thesis explores the feasibility of developing paradigm-agnostic tools for benchmarking data processing platforms. By evaluating multiple systems—including both batch and stream processing frameworks—we investigate the extent to which a standardized approach can bridge functional disparities. Through the implementation of well-established benchmarks such as TPC-H and Nexmark, we analyze execution models, performance metrics, and the challenges involved in making fair comparisons. Our findings reveal that while certain abstractions facilitate interoperability, they fail to fully encapsulate the nuanced differences between systems. The results highlight the constraints that hinder full abstraction and underscore the complexity of establishing a truly unified data processing framework. This research does not aim to provide a definitive solution to achieving system-agnosticism. Instead, it critically examines the limitations of current approaches and offers insights into the trade-offs and challenges associated with standardizing data processing across diverse platforms.

Nell'era della digitalizzazione e dell'analisi dei dati, la capacità di elaborare, analizzare e confrontare i dati tra piattaforme eterogenee è diventata sempre più cruciale. Sebbene siano stati fatti tentativi per introdurre astrazioni universali, come SQL e DataFrames, questi approcci spesso non riescono a raggiungere una vera interoperabilità tra sistemi a causa delle differenze fondamentali nei modelli di esecuzione, nelle strategie di ottimizzazione e nei requisiti infrastrutturali. Questa tesi esplora la fattibilità dello sviluppo di strumenti agnostici rispetto ai paradigmi per il benchmarking delle piattaforme di elaborazione dei dati. Analizzando diversi sistemi—tra cui framework per l'elaborazione batch e stream—investighiamo fino a che punto un approccio standardizzato possa colmare le discrepanze funzionali. Attraverso l'implementazione di benchmark consolidati come TPC-H e Nexmark, analizziamo i modelli di esecuzione, le metriche di prestazione e le sfide associate a confronti equi. I nostri risultati dimostrano che, sebbene alcune astrazioni facilitino l'interoperabilità, esse non riescono a rappresentare appieno le differenze strutturali tra i sistemi. Le analisi evidenziano le limitazioni che ostacolano un'astrazione completa e sottolineano la complessità di definire un framework unificato per l'elaborazione dei dati. Questa ricerca non si propone di fornire una soluzione definitiva all'agnosticismo dei sistemi. Piuttosto, esamina in modo critico i limiti degli approcci attuali e fornisce spunti sulle sfide e i compromessi associati alla standardizzazione dell'elaborazione dei dati su piattaforme diverse.