Progettazione, sviluppo e automatizzazione di un'architettura dati a supporto dell'analisi e della validazione di sistemi di guida autonoma

Autonomous driving is now the forefront of technological development and, in a dynamic sector, the ability to rapidly validate and refine software is a vital competitive strategy. Validation detects critical issues and measures the system’s progress, but generates massive piles of heterogeneous data. Limiting itself to the preservation of this information disperses its strategic potential. The value of experimentation emerges from the queryability of data, converting an inert archive into an infrastructure capable of providing objective evidence. As information guides decision-making processes and documents technological advancement, relying on manual and fragmented procedures has become a completely unsustainable bottleneck. Without proper data management, analytical tools, and continuously updated KPI evaluation, the availability of petabytes of data provides no effective value. The main contribution of this Thesis is the design, development, and automation of a modular data infrastructure inspired by the Data Lakehouse paradigm, capable of autonomously managing the entire data flow, from collection to final visualization, without human intervention. The built architecture organizes data in a Data Lake using MinIO, which allows analytics tools to quickly access the data. The data is stored in an efficient format to ensure fast readings and its integrity and consistency are always ensured. It then uses containers to make the entire system flexible and easily extendable with new features. The platform enables the processing and analysis of KPIs operated via Spark, Hive Metastore, and Trino, offering end users an intuitive interface with self-updating control panels and the ability to directly query data via Apache Superset, making it easy and straightforward to understand the results. The validation demonstrates the effectiveness of the approach and pave the way for future expansions, with the integration of specialized databases for specific data types.

La guida autonoma è uno dei fronti più avanzati della tecnologia e, in un settore dinamico, la capacità di validare e perfezionare rapidamente il software è una strategia competitiva vitale. La validazione rileva le criticità e misura il progresso del sistema, generando però moli imponenti di dati eterogenei. Limitarsi alla conservazione di queste informazioni ne disperde il potenziale strategico. Il valore della sperimentazione emerge dall’interrogabilità dei dati, convertendo un archivio inerte in un’infrastruttura capace di restituire evidenze oggettive. Poiché l’informazione guida i processi decisionali e documenta l’avanzamento tecnologico, affidarsi a procedure manuali e frammentate è diventato un collo di bottiglia del tutto insostenibile. Senza un’adeguata gestione delle informazioni, l’impiego di strumenti analitici e una valutazione costante degli indicatori, la disponibilità di petabyte di dati non genera alcun valore operativo. Il contributo principale di questo lavoro di Tesi si concretizza nella progettazione, nello sviluppo e nell’automatizzazione di un’infrastruttura dati modulare ispirata al paradigma del Data Lakehouse, capace di gestire autonomamente l’intero percorso del dato, dalla raccolta fino alla visualizzazione finale, senza intervento umano. L’architettura realizzata organizza i dati in un Data Lake tramite MinIO, che permette agli strumenti di analisi di accedere rapidamente ai dati. I dati sono conservati in un formato efficiente per garantire letture veloci e la loro integrità e consistenza sono sempre assicurate. Utilizza poi container per rendere l’intero sistema flessibile e facilmente estendibile con nuove funzionalità. La piattaforma consente il processamento e l’analisi di KPI azionabili tramite Spark, Hive Metastore e Trino, offrendo all’utente finale un’interfaccia intuitiva con pannelli di controllo auto-aggiornanti e la possibilità di interrogare direttamente i dati tramite Apache Superset, rendendo semplice e immediata la comprensione dei risultati. I risultati dimostrano l’efficacia dell’approccio e aprono la strada a future espansioni, con l’integrazione di basi di dati specializzate per specifiche tipologie di dato.