Selective imputation: a sustainable approach to data reduction

Biblioteche e Archivi
POLITesi - Archivio digitale delle tesi di laurea e di dottorato

Sustainability represents nowadays one of the most principle challenges aiming to ensure a balance between human development and environmental protection. In the digital world, the notion of digital sustainability arises with the primary goal of reducing the constantly growing of electricity consumption of IT and data centers. In this context, data preparation plays a central role because the demand for quality data to train machine learning and deep leaning models continuous to grow, resulting in a significant increase in energy consumption during the data preparation phase. The focus of the thesis is on the strategy of data reduction, i.e., the elimination of redundant and low value data. Specifically, a new technique is implemented that does not remove all missing data, but it preserve a portion of it to allow for imputation. In this way, instead of performing a total imputation, a selective imputation is conducted, with of aim of reducing low value data while maintaining an appreciable level of accuracy, seeking a trade-off between quality and execution time.

La sostenibiltà rappresenta oggi una delle principali sfide volto a garantire l'equilibrio tra sviluppo umano e tutela dell'ambiente. Nel mondo digitale si parla di sostenibilità digitale che ha come obiettivo principale la riduzione dei consumi elettrici di IT e data center, che sono in costante crescita. In questo contesto, la data preparation svolge un ruolo centrale perché la domanda di dati di qualità per addestrare modelli di machine learning e deep learning continua ad aumentare e comporta quindi un incremento significativo del consumo energetico nella fase di preparazione dei dati. Il focus della tesi è sulla strategia della data reduction, ossia l’eliminazione di dati ridondanti e poco informativi. In particolare, viene implementata una nuova tecnica che non elimina completamente i dati mancanti, ma ne mantiene una parte per consentire l’imputazione. In questo modo, invece di effettuare una imputazione totale, viene realizzata una imputazione selettiva, con l’obiettivo di ridurre i dati a basso valore e, al contempo, mantenere un livello di accuratezza apprezzabile, cercando un trade-off tra qualità e tempo di esecuzione.

Selective imputation: a sustainable approach to data reduction

Zheng, Chenhui

2024/2025

Abstract

Sustainability represents nowadays one of the most principle challenges aiming to ensure a balance between human development and environmental protection. In the digital world, the notion of digital sustainability arises with the primary goal of reducing the constantly growing of electricity consumption of IT and data centers. In this context, data preparation plays a central role because the demand for quality data to train machine learning and deep leaning models continuous to grow, resulting in a significant increase in energy consumption during the data preparation phase. The focus of the thesis is on the strategy of data reduction, i.e., the elimination of redundant and low value data. Specifically, a new technique is implemented that does not remove all missing data, but it preserve a portion of it to allow for imputation. In this way, instead of performing a total imputation, a selective imputation is conducted, with of aim of reducing low value data while maintaining an appreciable level of accuracy, seeking a trade-off between quality and execution time.

Scheda breve

Scheda completa

	Relatore
	
				CAPPIELLO, CINZIA
			
	Correlatore/i
	
				SANCRICCA, CAMILLA
			
	Scuola / Dip.
	
				ING  - Scuola di Ingegneria Industriale e dell'Informazione
			
	Data
	
				10-dic-2025
			
	Anno accademico
	
				2024/2025
			
	Abstract in italiano
	
				La sostenibiltà rappresenta oggi una delle principali sfide volto a garantire l'equilibrio tra sviluppo umano e tutela dell'ambiente. Nel mondo digitale si parla di sostenibilità digitale che ha come obiettivo principale la riduzione dei consumi elettrici di IT e data center, che sono in costante crescita. In questo contesto, la data preparation svolge un ruolo centrale perché la domanda di dati di qualità per addestrare modelli di machine learning e deep learning continua ad aumentare e comporta quindi un incremento significativo del consumo energetico nella fase di preparazione dei dati.
Il focus della tesi è sulla strategia della data reduction, ossia l’eliminazione di dati ridondanti e poco informativi. In particolare, viene implementata una nuova tecnica che non elimina completamente i dati mancanti, ma ne mantiene una parte per consentire l’imputazione. In questo modo, invece di effettuare una imputazione totale, viene realizzata una imputazione selettiva, con l’obiettivo di ridurre i dati a basso valore e, al contempo, mantenere un livello di accuratezza apprezzabile, cercando un trade-off tra qualità e tempo di esecuzione.
			
	Appare nelle tipologie:
	
				Tesi di laurea Magistrale

File allegati

File	Dimensione	Formato
2025_Chenhui_Zheng.pdf accessibile in internet solo dagli utenti autorizzati Dimensione 2.62 MB Formato Adobe PDF Visualizza/Apri	2.62 MB	Adobe PDF	Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/247606