This thesis aims to redefine the clustering of S&P500 companies by enhancing traditional sector-based classifications, integrating expert financial knowledge with machine learning techniques. Focused on data spanning from January 2007 to December 2022, it aims to construct a novel and insightful classification system that not only reflects the intricate behaviors of companies within the financial markets, but also addresses the rising computational challenges in multivariate time series analysis. Recognizing the increasing need for multivariate time series clustering methods, three clustering algorithms have been introduced. Special emphasis has been placed on a novel implementation of the FastDTW distance metric, exploiting its linear complexity. The other two algorithms serve as benchmarks for computational efficiency and quality of results. Despite the diversity of approaches, these methods consistently yield parallel outcomes, highlighting the robustness and quality of the underlying financial data. Noteworthy is how all algorithms uncover a significant alignment in balance sheet data among traditional non-cyclical and technology companies post-2017, signaling a shift in market dynamics that traditional sector classifications fail to capture. The thesis demonstrates that a machine learning driven approach, particularly when leveraging the computational efficiency of FastDTW, can uncover inter-company relationships that extend beyond conventional sector boundaries. This methodological framework not only offers a refined understanding of company classifications, but also presents an innovative investment vehicle for those seeking to balance risk and market responsiveness. By achieving its dual objectives, this research lays the groundwork for future studies that may further explore the interplay between financial clustering and broader economic indicators. The findings underscore the potential of integrating machine learning with financial expertise to navigate the increasingly complex and data-driven landscape of financial analytics, offering actionable insights for both academic and practical applications in finance.

Questa tesi ha come obiettivo quello di ridefinire il clustering delle aziende nel S&P500, migliorando le classificazioni tradizionali basate sui settori, integrando conoscenze finanziarie di esperti con tecniche di machine learning. Concentrandosi sui dati che vanno da gennaio 2007 a dicembre 2022, mira a costruire un sistema di classificazione più sensibile e dinamico che non solo rifletta i comportamenti complessi delle aziende all'interno dei mercati finanziari, ma affronti anche le crescenti sfide computazionali nell'analisi delle serie temporali multivariate. Riconoscendo la crescente necessità di metodi di clustering per serie temporali multivariate, sono stati introdotti tre algoritmi di clustering, con l'obiettivo di trovare la soluzione computazionalmente più veloce. È stata posta una particolare attenzione su una nuova implementazione di TimeSeriesKMeans con distanza FastDTW, sfruttando la sua complessità lineare. Gli altri due algoritmi servono invece come benchmark per l'efficienza computazionale e la qualità dei risultati. Nonostante la diversità degli approcci, i tre metodi giungono a simili risultati, evidenziando la robustezza e la qualità dei dati finanziari utilizzati. Degno di nota è come tutti gli algoritmi rivelino forti similitudini nei dati di bilancio tra aziende tradizionalmente non cicliche e quelle tecnologiche dopo il 2017, segnalando un cambiamento nelle dinamiche di mercato che le classificazioni settoriali tradizionali non riescono a catturare. La tesi dimostra come un approccio guidato dal machine learning, può scoprire relazioni tra le aziende che vanno oltre i confini settoriali convenzionali. Questo quadro metodologico non solo offre una comprensione raffinata delle classificazioni aziendali, ma presenta anche un veicolo di investimento innovativo per coloro che cercano soluzioni bilanciate nel rischio e rendimento. Raggiungendo i suoi obiettivi, questa ricerca getta le basi per futuri studi che potrebbero esplorare ulteriormente l'interazione tra il clustering finanziario e indicatori economici più ampi. I risultati sottolineano il potenziale dell'integrazione del machine learning con l'esperienza finanziaria per navigare nel panorama, sempre più complesso e guidato dai dati, dell'analisi finanziaria, offrendo spunti d'azione sia per applicazioni accademiche che pratiche nel campo della finanza.

Innovative clustering approach for SandP500 companies: beyond sectors boundaries and cyclical - non cyclical portfolios

SALVATI, FILIPPO
2023/2024

Abstract

This thesis aims to redefine the clustering of S&P500 companies by enhancing traditional sector-based classifications, integrating expert financial knowledge with machine learning techniques. Focused on data spanning from January 2007 to December 2022, it aims to construct a novel and insightful classification system that not only reflects the intricate behaviors of companies within the financial markets, but also addresses the rising computational challenges in multivariate time series analysis. Recognizing the increasing need for multivariate time series clustering methods, three clustering algorithms have been introduced. Special emphasis has been placed on a novel implementation of the FastDTW distance metric, exploiting its linear complexity. The other two algorithms serve as benchmarks for computational efficiency and quality of results. Despite the diversity of approaches, these methods consistently yield parallel outcomes, highlighting the robustness and quality of the underlying financial data. Noteworthy is how all algorithms uncover a significant alignment in balance sheet data among traditional non-cyclical and technology companies post-2017, signaling a shift in market dynamics that traditional sector classifications fail to capture. The thesis demonstrates that a machine learning driven approach, particularly when leveraging the computational efficiency of FastDTW, can uncover inter-company relationships that extend beyond conventional sector boundaries. This methodological framework not only offers a refined understanding of company classifications, but also presents an innovative investment vehicle for those seeking to balance risk and market responsiveness. By achieving its dual objectives, this research lays the groundwork for future studies that may further explore the interplay between financial clustering and broader economic indicators. The findings underscore the potential of integrating machine learning with financial expertise to navigate the increasingly complex and data-driven landscape of financial analytics, offering actionable insights for both academic and practical applications in finance.
SANTANGELO, ALBERTO
ING - Scuola di Ingegneria Industriale e dell'Informazione
9-apr-2024
2023/2024
Questa tesi ha come obiettivo quello di ridefinire il clustering delle aziende nel S&P500, migliorando le classificazioni tradizionali basate sui settori, integrando conoscenze finanziarie di esperti con tecniche di machine learning. Concentrandosi sui dati che vanno da gennaio 2007 a dicembre 2022, mira a costruire un sistema di classificazione più sensibile e dinamico che non solo rifletta i comportamenti complessi delle aziende all'interno dei mercati finanziari, ma affronti anche le crescenti sfide computazionali nell'analisi delle serie temporali multivariate. Riconoscendo la crescente necessità di metodi di clustering per serie temporali multivariate, sono stati introdotti tre algoritmi di clustering, con l'obiettivo di trovare la soluzione computazionalmente più veloce. È stata posta una particolare attenzione su una nuova implementazione di TimeSeriesKMeans con distanza FastDTW, sfruttando la sua complessità lineare. Gli altri due algoritmi servono invece come benchmark per l'efficienza computazionale e la qualità dei risultati. Nonostante la diversità degli approcci, i tre metodi giungono a simili risultati, evidenziando la robustezza e la qualità dei dati finanziari utilizzati. Degno di nota è come tutti gli algoritmi rivelino forti similitudini nei dati di bilancio tra aziende tradizionalmente non cicliche e quelle tecnologiche dopo il 2017, segnalando un cambiamento nelle dinamiche di mercato che le classificazioni settoriali tradizionali non riescono a catturare. La tesi dimostra come un approccio guidato dal machine learning, può scoprire relazioni tra le aziende che vanno oltre i confini settoriali convenzionali. Questo quadro metodologico non solo offre una comprensione raffinata delle classificazioni aziendali, ma presenta anche un veicolo di investimento innovativo per coloro che cercano soluzioni bilanciate nel rischio e rendimento. Raggiungendo i suoi obiettivi, questa ricerca getta le basi per futuri studi che potrebbero esplorare ulteriormente l'interazione tra il clustering finanziario e indicatori economici più ampi. I risultati sottolineano il potenziale dell'integrazione del machine learning con l'esperienza finanziaria per navigare nel panorama, sempre più complesso e guidato dai dati, dell'analisi finanziaria, offrendo spunti d'azione sia per applicazioni accademiche che pratiche nel campo della finanza.
File allegati
File Dimensione Formato  
2024_04_Salvati_Tesi.pdf

accessibile in internet per tutti

Descrizione: Tesi
Dimensione 4.21 MB
Formato Adobe PDF
4.21 MB Adobe PDF Visualizza/Apri
2024_04_Salvati_Executive_Summary.pdf

accessibile in internet per tutti

Descrizione: Executive Summary
Dimensione 1.78 MB
Formato Adobe PDF
1.78 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/217532