A data-centric approach for reducing carbon emissions in deep learning

The growing popularity of Deep Learning (DL) in recent years has had a great environmental impact. Training models in this field requires lots of processing and computation, consequently requiring lots of energy. The size of these models and the amounts of data required for them have been subject to exponential growth, not comparable to the improvements in performance in them. “Green AI” is the term given to environmentally conscious artificial intelligence research, while “Red AI” focuses on obtaining better results no matter the cost. This thesis proposes a data-centric “Green AI” approach, reducing the environmental impact when training DL models by focusing on a more efficient data usage. In order to reach this goal of reducing carbon emissions, a general methodology for any DL task is proposed. This methodology is based on analysing different data characteristics, mainly data quality dimensions and data volume, and seeing how these affect the carbon emissions and performance on different models. With this information, a human-in-the-loop approach is provided to support researchers in obtaining a modified and reduced version of a dataset able to reduce the environmental impact of the training while reaching a given performance goal. To prove its validity, the proposed methodology is applied to the time series classification task and a prototype has been developed proving the possibility of reducing carbon emissions of DL training by up to 50%.

La crescente popolarità del Deep Learning (DL) negli ultimi anni ha comportato un rilevante impatto ambientale. I modelli di addestramento richiedono l'impiego di molte risorse computazionali, che risultano in un elevato consumo di energia. La dimensione di questi modelli e le quantità di dati richiesti per il loro addestramento sono state oggetto di una crescita esponenziale, non paragonabile ai miglioramenti in termini di prestazioni. Il termine "Green AI" identifica gli approcci di ricerca sull'intelligenza artificiale rispettosi degli aspetti ambientali, mentre gli approcci "Red AI" si concentrano sull'ottenimento di risultati migliori a prescindere dal costo. Questa tesi propone un approccio "Green AI" incentrato sui dati, riducendo l’impatto ambientale dell’addestramento di modelli di DL basandosi su un utilizzo più efficiente dei dati. Per raggiungere questo obiettivo, la tesi propone una metodologia generale per qualsiasi attività di DL. Questa metodologia si basa sull'analisi di diverse caratteristiche dei dati, principalmente le dimensioni di qualità dei dati e il loro volume, e sull’osservazione di come questi aspetti influenzano le emissioni e le prestazioni di diversi modelli. Con queste informazioni, viene fornito un approccio human-in-the-loop per supportare i ricercatori nell'ottenere una versione modificata e ridotta di un dataset in grado di ridurre l'impatto ambientale dell’addestramento rispettando i vincoli di prestazione richiesti dal ricercatore. Per dimostrarne la validità, la metodologia proposta è stata applicata alla classificazione delle serie temporali ed è stato sviluppato un prototipo che dimostra la possibilità di ridurre fino al 50% l'impatto energetico dell’addestramento di un modello.