The increasing amount of data collected and used for analysis requires a change from traditional data warehouses. Data lakes are an increasingly used solution by companies to store and search for data they collect. Despite this, data lakes are still a relatively new technology and a defined approach for their implementation is lacking. Crucial to the management of this system is the management of metadata, through which data can be easily found in the repository once saved. Several researchers have proposed metadata models: frameworks for metadata management that offer different features more or less useful depending on the context of use. In this dissertation, we analyze the usefulness of different metadata categories based on the needs of MADE, the I4.0 competence center at the Polytechnic of Milan. The information obtained from the competence center area managers is analyzed to gain knowledge regarding the data lake features required by I4.0 and IoT related companies. This will allow to select the most tailored metadata model that prevents the entire system from becoming a “data swamp”, a repository of data in which data analysts cannot find what is of interest.

L'aumentare della mole di dati raccolti e utilizzati per le analisi richiede un cambiamento dei tradizionali data warehouse. I data lake rappresentano una soluzione sempre più utilizzata dalle aziende per salvare e ricercare i dati da loro raccolti. Nonostante questo, i data lake sono ancora una tecnologia relativamente nuova e manca un approccio ben definito per la loro implementazione. Per la gestione di questi sistemi è di fondamentale importanza la gestione dei metadati, grazie ai quali è possibile ritrovare facilmente i dati nel repository una volta salvati. Diversi ricercatori hanno proposto dei metadata model: framework per la gestione dei matadati che offrono diverse funzionalità più o meno utili in base al contesto di utilizzo. In questa dissertation si analizza l'utilità di diverse categorie di metadati in base alle esigenze del MADE, centro competenze I4.0 del Politecnico di Milano e più in generale per le aziende legate all'I4.0. Le informazioni ottenute dai responsabili di area del MADE verranno poi analizzate per ottenere conoscenza riguardo le funzionalità dei data lake richieste dalle aziende che investono in tecnologie I4.0 e IoT. Questo ci permetterà di scegliere un modello di metadati che impedisca all'intero sistema di diventare un “data swamp”, una repository di dati nella quale non si riesce a cercare ciò che è d'interesse.

A Metamodel for Data Lake in Industry 4.0: the MADE Experience

TONETTI, EDOARDO;Tubino, Filippo
2021/2022

Abstract

The increasing amount of data collected and used for analysis requires a change from traditional data warehouses. Data lakes are an increasingly used solution by companies to store and search for data they collect. Despite this, data lakes are still a relatively new technology and a defined approach for their implementation is lacking. Crucial to the management of this system is the management of metadata, through which data can be easily found in the repository once saved. Several researchers have proposed metadata models: frameworks for metadata management that offer different features more or less useful depending on the context of use. In this dissertation, we analyze the usefulness of different metadata categories based on the needs of MADE, the I4.0 competence center at the Polytechnic of Milan. The information obtained from the competence center area managers is analyzed to gain knowledge regarding the data lake features required by I4.0 and IoT related companies. This will allow to select the most tailored metadata model that prevents the entire system from becoming a “data swamp”, a repository of data in which data analysts cannot find what is of interest.
CAPPIELLO, CINZIA
ING - Scuola di Ingegneria Industriale e dell'Informazione
20-dic-2022
2021/2022
L'aumentare della mole di dati raccolti e utilizzati per le analisi richiede un cambiamento dei tradizionali data warehouse. I data lake rappresentano una soluzione sempre più utilizzata dalle aziende per salvare e ricercare i dati da loro raccolti. Nonostante questo, i data lake sono ancora una tecnologia relativamente nuova e manca un approccio ben definito per la loro implementazione. Per la gestione di questi sistemi è di fondamentale importanza la gestione dei metadati, grazie ai quali è possibile ritrovare facilmente i dati nel repository una volta salvati. Diversi ricercatori hanno proposto dei metadata model: framework per la gestione dei matadati che offrono diverse funzionalità più o meno utili in base al contesto di utilizzo. In questa dissertation si analizza l'utilità di diverse categorie di metadati in base alle esigenze del MADE, centro competenze I4.0 del Politecnico di Milano e più in generale per le aziende legate all'I4.0. Le informazioni ottenute dai responsabili di area del MADE verranno poi analizzate per ottenere conoscenza riguardo le funzionalità dei data lake richieste dalle aziende che investono in tecnologie I4.0 e IoT. Questo ci permetterà di scegliere un modello di metadati che impedisca all'intero sistema di diventare un “data swamp”, una repository di dati nella quale non si riesce a cercare ciò che è d'interesse.
File allegati
File Dimensione Formato  
Executive_Summary Tubino_Tonetti.pdf

accessibile in internet per tutti

Descrizione: data lake
Dimensione 586.57 kB
Formato Adobe PDF
586.57 kB Adobe PDF Visualizza/Apri
Dissertation Tubino_Tonetti.pdf

accessibile in internet per tutti

Descrizione: data lake
Dimensione 1.66 MB
Formato Adobe PDF
1.66 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/201734