Being able to understand the stock market is essential for making profitable financial decisions. As a consequence, numerous studies have tried, especially in recent years, to exploit machine learning techniques to make better predictions. Given the complexity of the financial world, and the fact that from the surveyed works present in the scientific literature a clear winning approach cannot be identified, a project that investigates and compares the proposed approaches is needed. The purpose of this thesis is to fill this gap, by using different information, like price data, news, and tweets, to highlight the elements that are actually relevant to form the stock price. In this thesis, the problem has been addressed by using Long Short-Term Memory neural networks (LSTMs) and Temporal Convolutional networks (TCNs), which are considered to be two state-of-the-art time series forecasting methods. These models have been trained and tested on different combinations of datasets (i.e. just price data, price data + news data, price + tweets, and price + news + tweets) to understand and analyse which factors are actually relevant in the determination of stock price. The analysis focused on 10 big companies operating in the US stock market. The obtained results show that LSTMs are more effective than TCNs at forecasting future price values. Furthermore, the analyses also points out how, depending on how much mainstream a company is, news and tweets regarding such company will play a different forecasting role. Specifically, our analysis suggests a negative correlation between the usefulness of the information contained in a company's news and tweets and how much the general public (i.e. non-financial experts) is interested in such company.
Essere in grado di comprendere il mercato azionario è essenziale per prendere decisioni finanziarie redditizie. Di conseguenza, numerosi studi hanno cercato, soprattutto negli ultimi anni, di sfruttare le tecniche di machine learning per fare previsioni migliori. Data la complessità del mondo finanziario e il fatto che dai lavori presenti nella letteratura scientifica non è possibile identificare un chiaro approccio vincente, è necessario un progetto che indaghi e confronti gli approcci proposti. Lo scopo di questa tesi è di colmare questa lacuna, utilizzando diverse informazioni, quali dati sui prezzi, notizie e tweets, per individuare gli elementi che sono effettivamente rilevanti nella formazione del prezzo delle azioni. In questa tesi, il problema è stato affrontato utilizzando reti neurali Long Short-Term Memory (LSTM) e Temporal Convolutional Networks (TCN), che sono considerati due metodi di previsione di serie temporali più performanti. Questi modelli sono stati addestrati e testati su diverse combinazioni di dati (ad esempio solo dati di prezzo, dati di prezzo + dati di notizie, prezzo + tweet e prezzo + notizie + tweet) per comprendere e analizzare quali fattori sono effettivamente rilevanti nella determinazione del prezzo delle azioni. L'analisi si è concentrata su 10 grandi società che operano nel mercato azionario statunitense. I risultati ottenuti mostrano che le reti LSTM sono più efficaci delle reti TCN nel prevedere valori futuri dei prezzi. Inoltre, l'analisi svolta in questa tesi, sottolinea anche come, a seconda di quanto sia mainstream un'azienda, notizie e tweets relativi a tale società avranno un ruolo di previsione diverso. In particolare, la nostra analisi suggerisce una correlazione negativa tra l'utilità delle informazioni contenute nelle notizie e nei tweet di un'azienda e quanto il pubblico in generale (ovvero i non esperti finanziari) sia interessato a tale società.
News vs. tweets in stock market forecasting. Which one is better ?
dell'ORO, STEFANO
2018/2019
Abstract
Being able to understand the stock market is essential for making profitable financial decisions. As a consequence, numerous studies have tried, especially in recent years, to exploit machine learning techniques to make better predictions. Given the complexity of the financial world, and the fact that from the surveyed works present in the scientific literature a clear winning approach cannot be identified, a project that investigates and compares the proposed approaches is needed. The purpose of this thesis is to fill this gap, by using different information, like price data, news, and tweets, to highlight the elements that are actually relevant to form the stock price. In this thesis, the problem has been addressed by using Long Short-Term Memory neural networks (LSTMs) and Temporal Convolutional networks (TCNs), which are considered to be two state-of-the-art time series forecasting methods. These models have been trained and tested on different combinations of datasets (i.e. just price data, price data + news data, price + tweets, and price + news + tweets) to understand and analyse which factors are actually relevant in the determination of stock price. The analysis focused on 10 big companies operating in the US stock market. The obtained results show that LSTMs are more effective than TCNs at forecasting future price values. Furthermore, the analyses also points out how, depending on how much mainstream a company is, news and tweets regarding such company will play a different forecasting role. Specifically, our analysis suggests a negative correlation between the usefulness of the information contained in a company's news and tweets and how much the general public (i.e. non-financial experts) is interested in such company.| File | Dimensione | Formato | |
|---|---|---|---|
|
Tesi.pdf
non accessibile
Descrizione: Testo della tesi
Dimensione
2.6 MB
Formato
Adobe PDF
|
2.6 MB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/152283