The growing need to digitalize more and more sectors of the everyday life has raised several questions about the sustainability of this process of change. Indeed, the entire ICT sector is responsible for more than 2% of global emissions, comparable with the emissions deriving from the fuels used in global aviation [1]. Among the most influential components for emissions in the ICT sector we find data centres, i.e., IT infrastructures suitable for the management and processing of large amounts of data. These infrastructures can be used by a single organization to manage its own data, or it can be managed by a company which rents storage capacity and computational power to other organizations. In the latter case, this constitutes a fundamental pillar of cloud computing. Regardless of the specific configuration, especially in recent years when organizations are realizing the potential value of proprietary data, more and more data is stored and managed in data centres. As a result, this data is often stored for very long periods just because it could become valuable in the future. Goal of this thesis is to investigate the impact, in terms of energy consumption, of data management in data centres, aiming to identify a link between the real value of the data and the data retention policies. This work assumes that an energy-aware data centre is energy efficient not only if it is able to reduce the energy consumed, but also if it is able to allocate the available energy only for valuable activities. In particular, we consider as data waste, data that are retained indefinitely, even if with no value. The main objective is to reduce the presence of data waste by firstly introducing a data set value model for evaluating to which extent a data that is currently stored in the data centres is valuable; secondly, proposing a framework able to enact strategies for redefining the data retention policies, also based on data reduction techniques. The framework has been validated using a typical distributed data retention scenario that simulates the application of the proposed framework. This demonstrated the possibility to a recovery of storage capacity of approximately 52%, while preserving, at the same time, 78.7% of the total data value.

La crescente necessità di digitalizzare sempre più settori della vita quotidiana ha sollevato diversi interrogativi sulla sostenibilità di questo processo di cambiamento. Infatti, l'intero settore ICT è responsabile di oltre il 2% delle emissioni globali, paragonabili alle emissioni derivanti dai carburanti utilizzati nell'aviazione globale [1]. Tra le componenti più influenti per le emissioni nel settore ICT troviamo i data centre, ovvero le infrastrutture informatiche adatte alla gestione e all'elaborazione di grandi quantità di dati. Queste infrastrutture possono essere utilizzate da una singola organizzazione per gestire i propri dati, oppure possono essere gestite da un'azienda che affitta capacità di archiviazione e potenza di calcolo ad altre organizzazioni. In quest'ultimo caso, ciò costituisce un pilastro fondamentale del cloud computing. Indipendentemente dalla configurazione specifica, soprattutto negli ultimi anni in cui le organizzazioni stanno realizzando il potenziale dei dati di proprietà, sempre più dati vengono dati archiviati e gestiti nei data centre. Il risultato è che spesso questi dati vengono archiviati per periodi molto lunghi solo perché potrebbero diventare preziosi in futuro. Obiettivo di questa tesi è indagare l'impatto, in termini di consumo energetico, della gestione dei dati nei data centre, con l'obiettivo di identificare un legame tra il valore reale dei dati e le politiche di conservazione dei dati. Questo lavoro presuppone che un data centre a risparmio energetico sia efficiente dal punto di vista energetico non solo se è in grado di ridurre l'energia consumata, ma anche se è in grado di allocare l'energia disponibile solo per attività di valore. In particolare, consideriamo come data waste (o spreco di dati) i dati che vengono conservati a tempo indeterminato, anche se non più utilizzati. L'obiettivo principale è ridurre la presenza di data waste introducendo in primo luogo un modello di valutazione del set di dati per valutare fino a che punto un dato attualmente archiviato nei data centre sia prezioso; in secondo luogo, proporre un framework in grado di mettere in atto strategie di ridefinizione delle politiche di conservazione dei dati, anche sulla base di tecniche di riduzione dei dati. Il framework è stato validato utilizzando un tipico scenario di conservazione dei dati distribuito che simula l'applicazione del framework proposto. Ciò ha dimostrato la possibilità di un recupero della capacità di storage di circa il 52%, preservando, allo stesso tempo, il 78,7% del valore totale dei dati.

A data value driven framework to reduce the data storage energy consumption

Castronuovo, Antonio
2020/2021

Abstract

The growing need to digitalize more and more sectors of the everyday life has raised several questions about the sustainability of this process of change. Indeed, the entire ICT sector is responsible for more than 2% of global emissions, comparable with the emissions deriving from the fuels used in global aviation [1]. Among the most influential components for emissions in the ICT sector we find data centres, i.e., IT infrastructures suitable for the management and processing of large amounts of data. These infrastructures can be used by a single organization to manage its own data, or it can be managed by a company which rents storage capacity and computational power to other organizations. In the latter case, this constitutes a fundamental pillar of cloud computing. Regardless of the specific configuration, especially in recent years when organizations are realizing the potential value of proprietary data, more and more data is stored and managed in data centres. As a result, this data is often stored for very long periods just because it could become valuable in the future. Goal of this thesis is to investigate the impact, in terms of energy consumption, of data management in data centres, aiming to identify a link between the real value of the data and the data retention policies. This work assumes that an energy-aware data centre is energy efficient not only if it is able to reduce the energy consumed, but also if it is able to allocate the available energy only for valuable activities. In particular, we consider as data waste, data that are retained indefinitely, even if with no value. The main objective is to reduce the presence of data waste by firstly introducing a data set value model for evaluating to which extent a data that is currently stored in the data centres is valuable; secondly, proposing a framework able to enact strategies for redefining the data retention policies, also based on data reduction techniques. The framework has been validated using a typical distributed data retention scenario that simulates the application of the proposed framework. This demonstrated the possibility to a recovery of storage capacity of approximately 52%, while preserving, at the same time, 78.7% of the total data value.
SALNITRI, MATTIA
ING - Scuola di Ingegneria Industriale e dell'Informazione
28-apr-2022
2020/2021
La crescente necessità di digitalizzare sempre più settori della vita quotidiana ha sollevato diversi interrogativi sulla sostenibilità di questo processo di cambiamento. Infatti, l'intero settore ICT è responsabile di oltre il 2% delle emissioni globali, paragonabili alle emissioni derivanti dai carburanti utilizzati nell'aviazione globale [1]. Tra le componenti più influenti per le emissioni nel settore ICT troviamo i data centre, ovvero le infrastrutture informatiche adatte alla gestione e all'elaborazione di grandi quantità di dati. Queste infrastrutture possono essere utilizzate da una singola organizzazione per gestire i propri dati, oppure possono essere gestite da un'azienda che affitta capacità di archiviazione e potenza di calcolo ad altre organizzazioni. In quest'ultimo caso, ciò costituisce un pilastro fondamentale del cloud computing. Indipendentemente dalla configurazione specifica, soprattutto negli ultimi anni in cui le organizzazioni stanno realizzando il potenziale dei dati di proprietà, sempre più dati vengono dati archiviati e gestiti nei data centre. Il risultato è che spesso questi dati vengono archiviati per periodi molto lunghi solo perché potrebbero diventare preziosi in futuro. Obiettivo di questa tesi è indagare l'impatto, in termini di consumo energetico, della gestione dei dati nei data centre, con l'obiettivo di identificare un legame tra il valore reale dei dati e le politiche di conservazione dei dati. Questo lavoro presuppone che un data centre a risparmio energetico sia efficiente dal punto di vista energetico non solo se è in grado di ridurre l'energia consumata, ma anche se è in grado di allocare l'energia disponibile solo per attività di valore. In particolare, consideriamo come data waste (o spreco di dati) i dati che vengono conservati a tempo indeterminato, anche se non più utilizzati. L'obiettivo principale è ridurre la presenza di data waste introducendo in primo luogo un modello di valutazione del set di dati per valutare fino a che punto un dato attualmente archiviato nei data centre sia prezioso; in secondo luogo, proporre un framework in grado di mettere in atto strategie di ridefinizione delle politiche di conservazione dei dati, anche sulla base di tecniche di riduzione dei dati. Il framework è stato validato utilizzando un tipico scenario di conservazione dei dati distribuito che simula l'applicazione del framework proposto. Ciò ha dimostrato la possibilità di un recupero della capacità di storage di circa il 52%, preservando, allo stesso tempo, il 78,7% del valore totale dei dati.
File allegati
File Dimensione Formato  
2022_04_Castronuovo_1.pdf

accessibile in internet per tutti

Descrizione: Documento di Tesi
Dimensione 3.71 MB
Formato Adobe PDF
3.71 MB Adobe PDF Visualizza/Apri
2022_04_Castronuovo_2.pdf

accessibile in internet per tutti

Descrizione: Executive Summary
Dimensione 937.86 kB
Formato Adobe PDF
937.86 kB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/188453