In the era of Artificial Intelligence (AI) and the climate crisis, adopting a sustainable approach to AI model training has become essential. Particularly, the training of Deep Learning (DL) models, whose usage has significantly increased in recent years due to their remarkable capabilities, has a significant environmental impact. In this context, it is crucial to embrace the principles of Green AI for research mindful of emissions and consumption in the field of AI. Green AI stands in opposition to traditional Red AI, whose sole objective is achieving better results without considering the costs. This thesis proposes a data-centric approach to Green AI to reduce the carbon cost of DL model training through careful data preparation, adhering to the principles and metrics of the Data Quality discipline. The cost of applying data preparation techniques, such as data cleaning and data reduction, will be evaluated, along with the resulting trade-off in model performance and emissions during training. From the analysis of the obtained results, a methodology has been defined to provide a data preparation pipeline, enabling researchers to consciously clean and reduce datasets to achieve predetermined performance while reducing emissions throughout the process. To demonstrate the validity of the methodology, experiments and evaluations were conducted in the context of time series classification. For this specific task and data type, we were able to integrate our approach with existing works in the field, extending and further validating them through our research. Through the data preparation pipeline provided by our methodological approach, we ultimately succeeded in achieving the goal of reducing emissions for specific DL models in time series classification.

Nell’era dell’Intelligenza Artificiale (AI) e della crisi climatica, adottare un approccio sostenibile al training dei modelli di AI è diventato essenziale. In particolare, il training dei modelli di Deep Learning (DL), il cui utilizzo è cresciuto molto negli ultimi anni a causa delle loro notevoli capacità, ha un impatto ambientale importante. In questo contesto è quindi importante abbracciare i principi della Green AI per una ricerca attenta alle emissioni ed i consumi nell’ambito dell’AI. La Green AI si oppone infatti alla tradizionale Red AI, il cui obiettivo è il solo raggiungimento di migliori risultati senza tener conto dei costi. Questa tesi propone dunque un approccio data-centric alla Green AI per ridurre il carbon cost del training dei modelli di DL attraverso un’attenta preparazione dei dati, nel rispetto dei principi e delle metriche della disciplina della Data Quality. Verrà valutato il costo di applicare tecniche di preparazione dei dati, quali data cleaning e data reduction, ed il trade-off conseguente nelle prestazioni e nelle emissioni del training dei modelli. Dall’analisi dei risultati ottenuti, si è quindi definita una metodologia volta a fornire una data preparation pipeline, per permettere ai ricercatori di pulire e ridurre in modo consapevole i dataset col fine di raggiungere delle performance prestabilite, riducendo le emissioni dell’intero processo. Per dimostrare la validità della metodologia, sono stati condotti esperimenti e valutazioni nel contesto della classificazione di serie temporali. Per questo specifico task e tipo di dati siamo quindi riusciti ad integrare il nostro approccio con lavori preesistenti nel settore, estendendoli e convalidandoli ulteriormente attraverso la nostra ricerca. Attraverso la data preparation pipeline fornita dal nostro approccio metodologico, siamo infine riusciti a raggiungere l’obiettivo di ridurre le emissioni dei modelli di DL specifici per la classificazione delle serie temporali.

Green AI: Balancing Sustainability in Data Preparation

Giudici, Luca;Giunta, Monica
2022/2023

Abstract

In the era of Artificial Intelligence (AI) and the climate crisis, adopting a sustainable approach to AI model training has become essential. Particularly, the training of Deep Learning (DL) models, whose usage has significantly increased in recent years due to their remarkable capabilities, has a significant environmental impact. In this context, it is crucial to embrace the principles of Green AI for research mindful of emissions and consumption in the field of AI. Green AI stands in opposition to traditional Red AI, whose sole objective is achieving better results without considering the costs. This thesis proposes a data-centric approach to Green AI to reduce the carbon cost of DL model training through careful data preparation, adhering to the principles and metrics of the Data Quality discipline. The cost of applying data preparation techniques, such as data cleaning and data reduction, will be evaluated, along with the resulting trade-off in model performance and emissions during training. From the analysis of the obtained results, a methodology has been defined to provide a data preparation pipeline, enabling researchers to consciously clean and reduce datasets to achieve predetermined performance while reducing emissions throughout the process. To demonstrate the validity of the methodology, experiments and evaluations were conducted in the context of time series classification. For this specific task and data type, we were able to integrate our approach with existing works in the field, extending and further validating them through our research. Through the data preparation pipeline provided by our methodological approach, we ultimately succeeded in achieving the goal of reducing emissions for specific DL models in time series classification.
CAPPIELLO, CINZIA
ING - Scuola di Ingegneria Industriale e dell'Informazione
19-dic-2023
2022/2023
Nell’era dell’Intelligenza Artificiale (AI) e della crisi climatica, adottare un approccio sostenibile al training dei modelli di AI è diventato essenziale. In particolare, il training dei modelli di Deep Learning (DL), il cui utilizzo è cresciuto molto negli ultimi anni a causa delle loro notevoli capacità, ha un impatto ambientale importante. In questo contesto è quindi importante abbracciare i principi della Green AI per una ricerca attenta alle emissioni ed i consumi nell’ambito dell’AI. La Green AI si oppone infatti alla tradizionale Red AI, il cui obiettivo è il solo raggiungimento di migliori risultati senza tener conto dei costi. Questa tesi propone dunque un approccio data-centric alla Green AI per ridurre il carbon cost del training dei modelli di DL attraverso un’attenta preparazione dei dati, nel rispetto dei principi e delle metriche della disciplina della Data Quality. Verrà valutato il costo di applicare tecniche di preparazione dei dati, quali data cleaning e data reduction, ed il trade-off conseguente nelle prestazioni e nelle emissioni del training dei modelli. Dall’analisi dei risultati ottenuti, si è quindi definita una metodologia volta a fornire una data preparation pipeline, per permettere ai ricercatori di pulire e ridurre in modo consapevole i dataset col fine di raggiungere delle performance prestabilite, riducendo le emissioni dell’intero processo. Per dimostrare la validità della metodologia, sono stati condotti esperimenti e valutazioni nel contesto della classificazione di serie temporali. Per questo specifico task e tipo di dati siamo quindi riusciti ad integrare il nostro approccio con lavori preesistenti nel settore, estendendoli e convalidandoli ulteriormente attraverso la nostra ricerca. Attraverso la data preparation pipeline fornita dal nostro approccio metodologico, siamo infine riusciti a raggiungere l’obiettivo di ridurre le emissioni dei modelli di DL specifici per la classificazione delle serie temporali.
File allegati
File Dimensione Formato  
2023_12_Giudici_Giunta_Executive_Summary_02.pdf

accessibile in internet solo dagli utenti autorizzati

Dimensione 4.8 MB
Formato Adobe PDF
4.8 MB Adobe PDF   Visualizza/Apri
2023_12_Giudici_Giunta_Tesi_01.pdf

accessibile in internet solo dagli utenti autorizzati

Dimensione 27.38 MB
Formato Adobe PDF
27.38 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/215793