Environmental, Social, and Governance (ESG) factors have become increasingly relevant in financial markets, influencing investment strategies and risk assessments. This thesis explores the role of raw ESG metrics in predicting the direction of future stock returns, framing return forecasting as a classification problem. We analyse MSCI ACWI index components from 2016 to 2022, focusing on the manufacturing, information, and financial sectors in the USA and Europe. We propose an ESG-oriented data cleaning pipeline and evaluate various machine learning models, finding that XGBoost outperforms other approaches. To assess the predictive power of ESG metrics, we conducted an ablation study, comparing their contribution to benchmark financial variables and past returns. Our results show that ESG and financial variables independently improve classification performance in a comparable manner, suggesting a complementary role in return forecasting. Through a SHAP-based feature importance analysis, we examine ESG contributions at the sector-region level, revealing that Environmental and Governance factors are generally the most influential in predictive performance. Building on these insights, we contribute to the literature on deep learning for tabular data by developing C-GAB (Cross-Group Attention Block), a novel architecture designed to integrate prior knowledge extracted from XGBoost. C-GAB leverages an attention-based mechanism to capture cross-sector and cross-region interactions, ensuring effective incorporation of ESG semantics into the model. Our findings suggest that raw ESG metrics contain meaningful predictive value and highlight the potential of context-aware deep learning solutions to surpass state-of-the-art models for tabular data in specific financial applications.
I fattori ESG (Environmental, Social e Governance) stanno acquisendo un ruolo sempre più rilevante nei mercati finanziari, influenzando strategie di investimento e valutazioni di rischio. Questa tesi esplora il potenziale delle metriche ESG non elaborate nella previsione della direzione dei rendimenti azionari futuri, trattando la previsione dei rendimenti come un problema di classificazione. L'analisi si concentra sulle aziende appartenenti all'indice MSCI ACWI nel periodo 2016-2022, con particolare attenzione ai settori manifatturiero, informatico e finanziario negli Stati Uniti e in Europa. Proponiamo una pipeline di pulizia dei dati specificamente sviluppata per gli ESG e valutiamo diversi modelli di machine learning, riscontrando che XGBoost offre prestazioni superiori rispetto agli altri modelli. Per misurare il potere predittivo delle metriche ESG, abbiamo confrontato il loro contributo con variabili finanziarie di riferimento e rendimenti passati. I risultati mostrano che le variabili ESG e quelle finanziarie migliorano indipendentemente le performance di classificazione in misura comparabile, suggerendo un ruolo complementare nella previsione dei rendimenti. Attraverso un'analisi di importanza delle variabili basata su SHAP, esaminiamo il contributo delle metriche ESG a livello settoriale e regionale, evidenziando come i fattori Ambientali e di Governance siano in genere i più influenti. Sulla base di questi risultati, contribuiamo alla letteratura sul deep learning per dati tabellari introducendo C-GAB (Cross-Group Attention Block), una nuova architettura progettata per integrare la conoscenza preliminare estratta da XGBoost. C-GAB sfrutta un meccanismo di attenzione per catturare le interazioni tra settori e regioni, incorporando efficacemente la semantica ESG nel modello. I nostri risultati indicano che le metriche ESG non elaborate possiedono un valore predittivo significativo e mettono in luce il potenziale di soluzioni di deep learning contestualizzate, in grado di superare i modelli all'avanguardia su dati tabellari in specifiche applicazioni finanziarie.
From ESG scores to raw ESG metrics: a machine learning approach to stock return prediction
GINESTRONI, GABRIELE
2023/2024
Abstract
Environmental, Social, and Governance (ESG) factors have become increasingly relevant in financial markets, influencing investment strategies and risk assessments. This thesis explores the role of raw ESG metrics in predicting the direction of future stock returns, framing return forecasting as a classification problem. We analyse MSCI ACWI index components from 2016 to 2022, focusing on the manufacturing, information, and financial sectors in the USA and Europe. We propose an ESG-oriented data cleaning pipeline and evaluate various machine learning models, finding that XGBoost outperforms other approaches. To assess the predictive power of ESG metrics, we conducted an ablation study, comparing their contribution to benchmark financial variables and past returns. Our results show that ESG and financial variables independently improve classification performance in a comparable manner, suggesting a complementary role in return forecasting. Through a SHAP-based feature importance analysis, we examine ESG contributions at the sector-region level, revealing that Environmental and Governance factors are generally the most influential in predictive performance. Building on these insights, we contribute to the literature on deep learning for tabular data by developing C-GAB (Cross-Group Attention Block), a novel architecture designed to integrate prior knowledge extracted from XGBoost. C-GAB leverages an attention-based mechanism to capture cross-sector and cross-region interactions, ensuring effective incorporation of ESG semantics into the model. Our findings suggest that raw ESG metrics contain meaningful predictive value and highlight the potential of context-aware deep learning solutions to surpass state-of-the-art models for tabular data in specific financial applications.File | Dimensione | Formato | |
---|---|---|---|
2025_04_Ginestroni_Tesi.pdf
solo utenti autorizzati a partire dal 02/03/2026
Descrizione: testo tesi
Dimensione
2.95 MB
Formato
Adobe PDF
|
2.95 MB | Adobe PDF | Visualizza/Apri |
2025_04_Ginestroni_Executive Summary.pdf
accessibile in internet solo dagli utenti autorizzati
Descrizione: testo executive summary
Dimensione
680.98 kB
Formato
Adobe PDF
|
680.98 kB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/234519