Nowadays, the stock market data is used widely for various purposes. Companies, investors, and traders are very interested in understanding the stock prices trend. This data affects the decision-making process. Thus, high quality is essential. Since, there are many sources providing the stock market data. We proposed a model to assess the data quality of different stock market data sources, ranking them, and choosing the most reliable one. Moreover, we developed a predictive model using Long-Short Term Memory (LSTM) architecture to predict the missing values in that source, in order to enhance its quality. Three main dimensions were used to assess the quality, namely, completeness, consistency and accuracy. We introduced a Quality Indicator (QI) index to rank the sources. The data were collected from four sources: Yahoo Finance, MSN Money, Stooq and Tiingo. The collected data is focusing on 60 companies in NASDAQ stock market over a period of 10 months from January 2019 to October 2019. The quality glitches were mainly in the completeness and accuracy dimensions, and no glitches were found in the consistency dimension, resulting to choose Yahoo Finance as the most reliable source. In addition, we used the predictive model on a sample of three companies, to fill in the missing days in the chosen source.

Al giorno d'oggi i dati di borsa sono ampiamente utilizzati per vari scopi. Le aziende, gli investitori e i commercianti sono molto interessati a comprendere i prezzi delle azioni tendenza. Questi dati influenzano il processo decisionale. Pertanto, l'alta qualità è essenziale. Poiché, ci sono molte fonti che forniscono i dati di mercato azionario. Abbiamo proposto un modello valutare la qualità dei dati di diverse fonti di dati borsistici, classificandole e scegliendo il più affidabile. Inoltre, abbiamo sviluppato un modello predittivo utilizzando Architettura di memoria a lungo termine (Long-Short Term Memory - LSTM) per prevedere i valori mancanti in questo per migliorarne la qualità. Sono state utilizzate tre dimensioni principali per valutare la qualità, ovvero completezza, coerenza e precisione. Abbiamo introdotto una Qualità Indicatore (QI) indice per classificare le fonti. I dati sono stati raccolti da quattro fonti: Yahoo Finance, MSN Money, Stooq e Tiingo. I dati raccolti si concentrano sul 60 società del mercato azionario del NASDAQ per un periodo di 10 mesi a partire da gennaio 2019 a ottobre 2019. I difetti di qualità sono stati principalmente nella completezza e nella precisione dimensioni, e non sono stati riscontrati difetti nella dimensione della consistenza, con il risultato di scegliete Yahoo Finance come fonte più affidabile. Inoltre, abbiamo utilizzato il predittivo modello su un campione di tre aziende, per riempire i giorni mancanti nella fonte scelta.

Big data quality : stock market data sources assessment

ELFAKHFAKH, MOHAMED TAREK MOHAMED OMAR
2019/2020

Abstract

Nowadays, the stock market data is used widely for various purposes. Companies, investors, and traders are very interested in understanding the stock prices trend. This data affects the decision-making process. Thus, high quality is essential. Since, there are many sources providing the stock market data. We proposed a model to assess the data quality of different stock market data sources, ranking them, and choosing the most reliable one. Moreover, we developed a predictive model using Long-Short Term Memory (LSTM) architecture to predict the missing values in that source, in order to enhance its quality. Three main dimensions were used to assess the quality, namely, completeness, consistency and accuracy. We introduced a Quality Indicator (QI) index to rank the sources. The data were collected from four sources: Yahoo Finance, MSN Money, Stooq and Tiingo. The collected data is focusing on 60 companies in NASDAQ stock market over a period of 10 months from January 2019 to October 2019. The quality glitches were mainly in the completeness and accuracy dimensions, and no glitches were found in the consistency dimension, resulting to choose Yahoo Finance as the most reliable source. In addition, we used the predictive model on a sample of three companies, to fill in the missing days in the chosen source.
BERNARDINI, VALTER
CAPPIELLO, CINZIA
ING - Scuola di Ingegneria Industriale e dell'Informazione
29-apr-2020
2019/2020
Al giorno d'oggi i dati di borsa sono ampiamente utilizzati per vari scopi. Le aziende, gli investitori e i commercianti sono molto interessati a comprendere i prezzi delle azioni tendenza. Questi dati influenzano il processo decisionale. Pertanto, l'alta qualità è essenziale. Poiché, ci sono molte fonti che forniscono i dati di mercato azionario. Abbiamo proposto un modello valutare la qualità dei dati di diverse fonti di dati borsistici, classificandole e scegliendo il più affidabile. Inoltre, abbiamo sviluppato un modello predittivo utilizzando Architettura di memoria a lungo termine (Long-Short Term Memory - LSTM) per prevedere i valori mancanti in questo per migliorarne la qualità. Sono state utilizzate tre dimensioni principali per valutare la qualità, ovvero completezza, coerenza e precisione. Abbiamo introdotto una Qualità Indicatore (QI) indice per classificare le fonti. I dati sono stati raccolti da quattro fonti: Yahoo Finance, MSN Money, Stooq e Tiingo. I dati raccolti si concentrano sul 60 società del mercato azionario del NASDAQ per un periodo di 10 mesi a partire da gennaio 2019 a ottobre 2019. I difetti di qualità sono stati principalmente nella completezza e nella precisione dimensioni, e non sono stati riscontrati difetti nella dimensione della consistenza, con il risultato di scegliete Yahoo Finance come fonte più affidabile. Inoltre, abbiamo utilizzato il predittivo modello su un campione di tre aziende, per riempire i giorni mancanti nella fonte scelta.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
Masters Thesis of Mohamed Elfakhfakh__A.pdf

accessibile in internet per tutti

Descrizione: Thesis text
Dimensione 3.5 MB
Formato Adobe PDF
3.5 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/154164