Sustainability represents nowadays one of the most principle challenges aiming to ensure a balance between human development and environmental protection. In the digital world, the notion of digital sustainability arises with the primary goal of reducing the constantly growing of electricity consumption of IT and data centers. In this context, data preparation plays a central role because the demand for quality data to train machine learning and deep leaning models continuous to grow, resulting in a significant increase in energy consumption during the data preparation phase. The focus of the thesis is on the strategy of data reduction, i.e., the elimination of redundant and low value data. Specifically, a new technique is implemented that does not remove all missing data, but it preserve a portion of it to allow for imputation. In this way, instead of performing a total imputation, a selective imputation is conducted, with of aim of reducing low value data while maintaining an appreciable level of accuracy, seeking a trade-off between quality and execution time.
La sostenibiltà rappresenta oggi una delle principali sfide volto a garantire l'equilibrio tra sviluppo umano e tutela dell'ambiente. Nel mondo digitale si parla di sostenibilità digitale che ha come obiettivo principale la riduzione dei consumi elettrici di IT e data center, che sono in costante crescita. In questo contesto, la data preparation svolge un ruolo centrale perché la domanda di dati di qualità per addestrare modelli di machine learning e deep learning continua ad aumentare e comporta quindi un incremento significativo del consumo energetico nella fase di preparazione dei dati. Il focus della tesi è sulla strategia della data reduction, ossia l’eliminazione di dati ridondanti e poco informativi. In particolare, viene implementata una nuova tecnica che non elimina completamente i dati mancanti, ma ne mantiene una parte per consentire l’imputazione. In questo modo, invece di effettuare una imputazione totale, viene realizzata una imputazione selettiva, con l’obiettivo di ridurre i dati a basso valore e, al contempo, mantenere un livello di accuratezza apprezzabile, cercando un trade-off tra qualità e tempo di esecuzione.
Selective imputation: a sustainable approach to data reduction
Zheng, Chenhui
2024/2025
Abstract
Sustainability represents nowadays one of the most principle challenges aiming to ensure a balance between human development and environmental protection. In the digital world, the notion of digital sustainability arises with the primary goal of reducing the constantly growing of electricity consumption of IT and data centers. In this context, data preparation plays a central role because the demand for quality data to train machine learning and deep leaning models continuous to grow, resulting in a significant increase in energy consumption during the data preparation phase. The focus of the thesis is on the strategy of data reduction, i.e., the elimination of redundant and low value data. Specifically, a new technique is implemented that does not remove all missing data, but it preserve a portion of it to allow for imputation. In this way, instead of performing a total imputation, a selective imputation is conducted, with of aim of reducing low value data while maintaining an appreciable level of accuracy, seeking a trade-off between quality and execution time.| File | Dimensione | Formato | |
|---|---|---|---|
|
2025_Chenhui_Zheng.pdf
accessibile in internet solo dagli utenti autorizzati
Dimensione
2.62 MB
Formato
Adobe PDF
|
2.62 MB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/247606