This thesis presents a Large Language Model-based approach to the task of financial market sentiment classification. We propose an innovative methodology to extend, train, and fine-tune existing BERT-based models in order to enhance their sentiment classification performance in the context of emoji-rich online content such as social media posts. By extending the original vocabulary and layers of a base model, the network is made capable of exploiting emojis and non-verbal cues, thereby improving its ability to correctly extract market sentiment for a target financial asset. The extracted sentiment is then used as an additional feature, alongside classical technical indicators, as input to a Recurrent Neural Network for price movement forecasting. In this way, we aim to verify the importance of online investor sentiment in driving market movements and trends. Furthermore, we quantify the impact that the ability of the language model to accurately capture sentiment has on the overall performance of price forecasting.

Questa tesi di ricerca propone un approccio basato sui moderni Large Language Model per affrontare la classificazione del sentiment di mercato relativo a un asset finanziario. In particolare, verrà proposto un metodo innovativo che consiste nell’estendere, addestrare e finetuninare un modello preesistente basato sull’architettura BERT, al fine di migliorarne le prestazioni originali nel compito di classificazione del sentiment di mercato, concentrandosi soprattutto sul sentiment espresso tramite contenuti provenienti da fonti online, come i social media, ricchi di emoji. Estendendo il vocabolario e layer originali del modello, la rete diventa in grado di sfruttare il contenuto espressivo delle emoji nella classificazione del sentiment. Il sentiment estratto dai post verrà poi utilizzato come caratteristica aggiuntiva, insieme ai classici indicatori tecnici, come input per una rete neurale ricorrente per prevedere i movimenti di prezzo del medesimo asset finanziario di cui è stato classificato il sentiment. Con questa strategia l’obiettivo è valutare l’importanza del sentiment degli investitori nel guidare i movimenti di prezzo del mercato. Inoltre, è possibile quantificare l’impatto che l’accuratezza del modello linguistico nel catturare il sentiment ha sulle prestazioni della previsione dei prezzi.

Sentiment-informed price prediction in algorithmic trading: an emoji-based approach

Bucci, Paolo Pietro
2024/2025

Abstract

This thesis presents a Large Language Model-based approach to the task of financial market sentiment classification. We propose an innovative methodology to extend, train, and fine-tune existing BERT-based models in order to enhance their sentiment classification performance in the context of emoji-rich online content such as social media posts. By extending the original vocabulary and layers of a base model, the network is made capable of exploiting emojis and non-verbal cues, thereby improving its ability to correctly extract market sentiment for a target financial asset. The extracted sentiment is then used as an additional feature, alongside classical technical indicators, as input to a Recurrent Neural Network for price movement forecasting. In this way, we aim to verify the importance of online investor sentiment in driving market movements and trends. Furthermore, we quantify the impact that the ability of the language model to accurately capture sentiment has on the overall performance of price forecasting.
CESTARI, RAFFAELE GIUSEPPE
MAZZARINA, DANIELE
ING - Scuola di Ingegneria Industriale e dell'Informazione
23-ott-2025
2024/2025
Questa tesi di ricerca propone un approccio basato sui moderni Large Language Model per affrontare la classificazione del sentiment di mercato relativo a un asset finanziario. In particolare, verrà proposto un metodo innovativo che consiste nell’estendere, addestrare e finetuninare un modello preesistente basato sull’architettura BERT, al fine di migliorarne le prestazioni originali nel compito di classificazione del sentiment di mercato, concentrandosi soprattutto sul sentiment espresso tramite contenuti provenienti da fonti online, come i social media, ricchi di emoji. Estendendo il vocabolario e layer originali del modello, la rete diventa in grado di sfruttare il contenuto espressivo delle emoji nella classificazione del sentiment. Il sentiment estratto dai post verrà poi utilizzato come caratteristica aggiuntiva, insieme ai classici indicatori tecnici, come input per una rete neurale ricorrente per prevedere i movimenti di prezzo del medesimo asset finanziario di cui è stato classificato il sentiment. Con questa strategia l’obiettivo è valutare l’importanza del sentiment degli investitori nel guidare i movimenti di prezzo del mercato. Inoltre, è possibile quantificare l’impatto che l’accuratezza del modello linguistico nel catturare il sentiment ha sulle prestazioni della previsione dei prezzi.
File allegati
File Dimensione Formato  
2025_10_Bucci_Tesi_01.pdf

accessibile in internet per tutti

Descrizione: Theses
Dimensione 3.92 MB
Formato Adobe PDF
3.92 MB Adobe PDF Visualizza/Apri
2025_10_Bucci_Executive_Summary_02.pdf

accessibile in internet per tutti

Descrizione: Executive Summary
Dimensione 1.54 MB
Formato Adobe PDF
1.54 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/243504