In recent years, Environmental, Social, and Governance (ESG) factors have become essen tial in evaluating corporate performance, influencing the decisions of investors, regulators, and stakeholders. However, accurately measuring ESG scores remains a complex challenge due to the lack of a standardized methodology and the variability of available data. This thesis proposes an innovative approach based on Machine Learning to predict corporate ESG scores using data from the Global Reporting Initiative (GRI) framework. The study focuses on analyzing a dataset composed of companies from the financial and manufactur ing sectors, covering both the United States and Europe. Following a rigorous data collec tion and cleaning process, a correlation analysis is conducted to identify the most relevant GRI variables influencing ESG scores. Subsequently, two Machine Learning models are implemented: Ridge Regression, selected for its ability to handle multicollinearity among variables while ensuring high interpretability, and Random Forest, employed to capture nonlinear relationships between sustainability indicators and ESG scores. The results indicate that while Machine Learning can provide insights into the relationship between GRI indicators and ESG scores, its predictive power remains limited. The complexity and inconsistencies in ESG reporting, combined with the lack of standardized disclosures across companies, pose significant challenges for accurate score estimation. Nevertheless, this research highlights important trends and methodological considerations that can in form future studies and industry practices. Rather than offering a definitive predictive model, the findings emphasize the need for improved data quality, better standardization of ESG disclosures, and more refined modeling techniques. In conclusion, while the pre dictive performance of the models is not yet sufficient for practical application, the study contributes valuable insights into the use of quantitative methods for ESG evaluation, laying the groundwork for further advancements in corporate sustainability assessment.

Negli ultimi anni, i fattori ESG (Environmental, Social, and Governance) sono diventati essenziali per la valutazione delle performance aziendali, influenzando le decisioni di in vestitori, regolatori e stakeholder. Tuttavia, la misurazione accurata dei punteggi ESG rimane una sfida complessa a causa della mancanza di una metodologia standardizzata e della variabilità dei dati disponibili. Questa tesi propone un approccio innovativo basato sul Machine Learning per prevedere i punteggi ESG aziendali utilizzando i dati forniti dal framework Global Reporting Initiative (GRI). Lo studio si concentra sull’analisi di un dataset composto da aziende dei settori finanziario e manifatturiero, con copertura geografica tra Stati Uniti ed Europa. Dopo un accurato processo di raccolta e pulizia dei dati, viene condotta un’analisi di correlazione per identificare le variabili GRI più ril evanti nella determinazione del punteggio ESG. Successivamente, vengono implementati due modelli di Machine Learning: la Ridge Regression, scelta per la sua capacità di ge stire la collinearità tra variabili e garantire un’elevata interpretabilità, e il Random Forest, utilizzato per catturare relazioni non lineari tra gli indicatori di sostenibilità e i punteggi ESG. I risultati mostrano che, sebbene il Machine Learning possa offrire spunti interes santi sulla relazione tra indicatori GRI e punteggi ESG, la sua capacità predittiva risulta ancora limitata. La complessità e le incongruenze nei report ESG, unite alla mancanza di una standardizzazione uniforme tra le aziende, rappresentano ostacoli significativi per una stima accurata dei punteggi. Tuttavia, questa ricerca evidenzia tendenze impor tanti e considerazioni metodologiche utili per studi futuri e per l’evoluzione delle pratiche aziendali. Più che fornire un modello predittivo definitivo, i risultati sottolineano la ne cessità di migliorare la qualità dei dati, standardizzare ulteriormente le divulgazioni ESG e sviluppare tecniche di modellazione più avanzate. In conclusione, sebbene le prestazioni predittive dei modelli non siano ancora sufficienti per un’applicazione pratica, lo studio fornisce contributi preziosi sull’uso di metodi quantitativi per la valutazione della sosteni bilità aziendale, gettando le basi per futuri sviluppi nel campo.

Machine learning for ESG: score prediction a GRI-based approach

Mandato, Thomas;BALLO, FEDERICO
2024/2025

Abstract

In recent years, Environmental, Social, and Governance (ESG) factors have become essen tial in evaluating corporate performance, influencing the decisions of investors, regulators, and stakeholders. However, accurately measuring ESG scores remains a complex challenge due to the lack of a standardized methodology and the variability of available data. This thesis proposes an innovative approach based on Machine Learning to predict corporate ESG scores using data from the Global Reporting Initiative (GRI) framework. The study focuses on analyzing a dataset composed of companies from the financial and manufactur ing sectors, covering both the United States and Europe. Following a rigorous data collec tion and cleaning process, a correlation analysis is conducted to identify the most relevant GRI variables influencing ESG scores. Subsequently, two Machine Learning models are implemented: Ridge Regression, selected for its ability to handle multicollinearity among variables while ensuring high interpretability, and Random Forest, employed to capture nonlinear relationships between sustainability indicators and ESG scores. The results indicate that while Machine Learning can provide insights into the relationship between GRI indicators and ESG scores, its predictive power remains limited. The complexity and inconsistencies in ESG reporting, combined with the lack of standardized disclosures across companies, pose significant challenges for accurate score estimation. Nevertheless, this research highlights important trends and methodological considerations that can in form future studies and industry practices. Rather than offering a definitive predictive model, the findings emphasize the need for improved data quality, better standardization of ESG disclosures, and more refined modeling techniques. In conclusion, while the pre dictive performance of the models is not yet sufficient for practical application, the study contributes valuable insights into the use of quantitative methods for ESG evaluation, laying the groundwork for further advancements in corporate sustainability assessment.
ING - Scuola di Ingegneria Industriale e dell'Informazione
3-apr-2025
2024/2025
Negli ultimi anni, i fattori ESG (Environmental, Social, and Governance) sono diventati essenziali per la valutazione delle performance aziendali, influenzando le decisioni di in vestitori, regolatori e stakeholder. Tuttavia, la misurazione accurata dei punteggi ESG rimane una sfida complessa a causa della mancanza di una metodologia standardizzata e della variabilità dei dati disponibili. Questa tesi propone un approccio innovativo basato sul Machine Learning per prevedere i punteggi ESG aziendali utilizzando i dati forniti dal framework Global Reporting Initiative (GRI). Lo studio si concentra sull’analisi di un dataset composto da aziende dei settori finanziario e manifatturiero, con copertura geografica tra Stati Uniti ed Europa. Dopo un accurato processo di raccolta e pulizia dei dati, viene condotta un’analisi di correlazione per identificare le variabili GRI più ril evanti nella determinazione del punteggio ESG. Successivamente, vengono implementati due modelli di Machine Learning: la Ridge Regression, scelta per la sua capacità di ge stire la collinearità tra variabili e garantire un’elevata interpretabilità, e il Random Forest, utilizzato per catturare relazioni non lineari tra gli indicatori di sostenibilità e i punteggi ESG. I risultati mostrano che, sebbene il Machine Learning possa offrire spunti interes santi sulla relazione tra indicatori GRI e punteggi ESG, la sua capacità predittiva risulta ancora limitata. La complessità e le incongruenze nei report ESG, unite alla mancanza di una standardizzazione uniforme tra le aziende, rappresentano ostacoli significativi per una stima accurata dei punteggi. Tuttavia, questa ricerca evidenzia tendenze impor tanti e considerazioni metodologiche utili per studi futuri e per l’evoluzione delle pratiche aziendali. Più che fornire un modello predittivo definitivo, i risultati sottolineano la ne cessità di migliorare la qualità dei dati, standardizzare ulteriormente le divulgazioni ESG e sviluppare tecniche di modellazione più avanzate. In conclusione, sebbene le prestazioni predittive dei modelli non siano ancora sufficienti per un’applicazione pratica, lo studio fornisce contributi preziosi sull’uso di metodi quantitativi per la valutazione della sosteni bilità aziendale, gettando le basi per futuri sviluppi nel campo.
File allegati
File Dimensione Formato  
2025_04_Ballo_Mandato_Tesi.pdf

accessibile in internet per tutti a partire dal 04/03/2026

Descrizione: Tesi
Dimensione 2.7 MB
Formato Adobe PDF
2.7 MB Adobe PDF   Visualizza/Apri
2025_04_Ballo_Mandato_ExecutiveSummary.pdf

accessibile in internet per tutti a partire dal 04/03/2026

Descrizione: Executive Summary
Dimensione 387.95 kB
Formato Adobe PDF
387.95 kB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/235879