This thesis tackles the five challenges in tourism data science, including tourist arrivals forecasting, topic analysis, fake review detection, sentiment analysis, and review rating prediction. Tourist arrivals forecasting is based on past tourist arrivals data and/or other factors. The rapid decrease in tourist arrivals occurred at the beginning of the year 2020 because of the COVID-19 pandemic. This thesis compares different models, and considers three situations, including the decrease and recovery of tourist arrivals during the COVID-19 pandemic, and the forecasting until 2025. Google Trends data and the COVID-19 step variable are utilized as exogenous variables. The results show that the model needs to be trained on the dataset at least until March 2020 to forecast tourist arrivals, and those exogenous variables improve the performances of the models. The reviews are converted into vectors with TF-IDF and the two pre-trained word embeddings based on GloVe and Word2Vec. Topic analysis is performed on all parts of speech, only nouns, and only adjectives. Latent Dirichlet Allocation identifies the topics of reviews. Then, sentiment analysis is performed for each topic to understand which aspects make reviewers satisfied or dissatisfied. Topic analysis and sentiment analysis are also performed per city. Sentiment analysis helps to understand the satisfaction of the reviewers. Fake review detection is important because there exist fake reviews on review platforms. Both sentiment analysis and fake review detection are considered binary classification problems, thus the same models are compared. The results show that the Artificial Neural Network with the pre-trained Word2Vec embedding outperforms the other models for sentiment analysis, and the Support Vector Machine with TF-IDF outperforms the other models for fake review detection. Review rating prediction is based on the review text, and the results show that the Artificial Neural Network with the pre-trained Word2Vec embedding outperforms the other models.

Questa tesi affronta cinque sfide di analisi dei dati basate su dati raccolti in ambito turistico, tra cui la previsione degli arrivi turistici e l'analisi delle opinioni dei visitatori, implementata a partire dalle recensioni pubblicate online. Tali recensioni vengono studiate applicando l'analisi degli argomenti, il rilevamento delle recensioni false, l'analisi del sentiment e la previsione del rating delle recensioni. La previsione degli arrivi turistici si basa sui dati degli arrivi passati e su altri fattori, tra cui la rapida diminuzione degli arrivi turistici si è verificata all'inizio dell'anno 2020 a causa della pandemia COVID-19. Questa tesi confronta diversi modelli e considera tre situazioni, tra cui la diminuzione e la ripresa degli arrivi turistici durante la pandemia COVID-19 e la previsione fino al 2025. I dati di Google Trends e la variabile di fase COVID-19 sono utilizzati come variabili esogene. I risultati mostrano che il modello deve essere addestrato sul set di dati almeno fino a marzo 2020 per prevedere gli arrivi turistici e che le variabili esogene migliorano le prestazioni dei modelli. Le recensioni sono convertite in vettori con TF-IDF e i due embeddings di parole pre-addestrati basati su GloVe e Word2Vec. L'analisi dei temi viene eseguita su tutte le parti del discorso, solo sui sostantivi e solo sugli aggettivi. La Latent Dirichlet Allocation identifica gli argomenti delle recensioni. Quindi, per ogni argomento viene eseguita la sentiment analysis per capire quali aspetti rendono i recensori soddisfatti o insoddisfatti. L'analisi degli argomenti e la sentiment analysis vengono eseguite anche per città. L'analisi del sentiment aiuta a capire la soddisfazione dei recensori. Il rilevamento delle recensioni false è importante perché esistono recensioni false sulle piattaforme di recensioni. Sia la sentiment analysis che il rilevamento delle recensioni false sono considerati problemi di classificazione binaria, pertanto vengono confrontati gli stessi modelli. I risultati mostrano che la Rete Neurale Artificiale con l'embedding Word2Vec pre-addestrato supera gli altri modelli per l'analisi del sentiment e la Support Vector Machine con TF-IDF supera gli altri modelli per il rilevamento delle recensioni false. La previsione della valutazione delle recensioni si basa sul testo della recensione e i risultati mostrano che la Rete Neurale Artificiale con l'embedding Word2Vec pre-trained supera gli altri modelli.

A data science study on the tourism market : analysis of the evolution of tourist arrivals and hotel reviews

Takigawa, Kodai
2022/2023

Abstract

This thesis tackles the five challenges in tourism data science, including tourist arrivals forecasting, topic analysis, fake review detection, sentiment analysis, and review rating prediction. Tourist arrivals forecasting is based on past tourist arrivals data and/or other factors. The rapid decrease in tourist arrivals occurred at the beginning of the year 2020 because of the COVID-19 pandemic. This thesis compares different models, and considers three situations, including the decrease and recovery of tourist arrivals during the COVID-19 pandemic, and the forecasting until 2025. Google Trends data and the COVID-19 step variable are utilized as exogenous variables. The results show that the model needs to be trained on the dataset at least until March 2020 to forecast tourist arrivals, and those exogenous variables improve the performances of the models. The reviews are converted into vectors with TF-IDF and the two pre-trained word embeddings based on GloVe and Word2Vec. Topic analysis is performed on all parts of speech, only nouns, and only adjectives. Latent Dirichlet Allocation identifies the topics of reviews. Then, sentiment analysis is performed for each topic to understand which aspects make reviewers satisfied or dissatisfied. Topic analysis and sentiment analysis are also performed per city. Sentiment analysis helps to understand the satisfaction of the reviewers. Fake review detection is important because there exist fake reviews on review platforms. Both sentiment analysis and fake review detection are considered binary classification problems, thus the same models are compared. The results show that the Artificial Neural Network with the pre-trained Word2Vec embedding outperforms the other models for sentiment analysis, and the Support Vector Machine with TF-IDF outperforms the other models for fake review detection. Review rating prediction is based on the review text, and the results show that the Artificial Neural Network with the pre-trained Word2Vec embedding outperforms the other models.
ING - Scuola di Ingegneria Industriale e dell'Informazione
18-lug-2023
2022/2023
Questa tesi affronta cinque sfide di analisi dei dati basate su dati raccolti in ambito turistico, tra cui la previsione degli arrivi turistici e l'analisi delle opinioni dei visitatori, implementata a partire dalle recensioni pubblicate online. Tali recensioni vengono studiate applicando l'analisi degli argomenti, il rilevamento delle recensioni false, l'analisi del sentiment e la previsione del rating delle recensioni. La previsione degli arrivi turistici si basa sui dati degli arrivi passati e su altri fattori, tra cui la rapida diminuzione degli arrivi turistici si è verificata all'inizio dell'anno 2020 a causa della pandemia COVID-19. Questa tesi confronta diversi modelli e considera tre situazioni, tra cui la diminuzione e la ripresa degli arrivi turistici durante la pandemia COVID-19 e la previsione fino al 2025. I dati di Google Trends e la variabile di fase COVID-19 sono utilizzati come variabili esogene. I risultati mostrano che il modello deve essere addestrato sul set di dati almeno fino a marzo 2020 per prevedere gli arrivi turistici e che le variabili esogene migliorano le prestazioni dei modelli. Le recensioni sono convertite in vettori con TF-IDF e i due embeddings di parole pre-addestrati basati su GloVe e Word2Vec. L'analisi dei temi viene eseguita su tutte le parti del discorso, solo sui sostantivi e solo sugli aggettivi. La Latent Dirichlet Allocation identifica gli argomenti delle recensioni. Quindi, per ogni argomento viene eseguita la sentiment analysis per capire quali aspetti rendono i recensori soddisfatti o insoddisfatti. L'analisi degli argomenti e la sentiment analysis vengono eseguite anche per città. L'analisi del sentiment aiuta a capire la soddisfazione dei recensori. Il rilevamento delle recensioni false è importante perché esistono recensioni false sulle piattaforme di recensioni. Sia la sentiment analysis che il rilevamento delle recensioni false sono considerati problemi di classificazione binaria, pertanto vengono confrontati gli stessi modelli. I risultati mostrano che la Rete Neurale Artificiale con l'embedding Word2Vec pre-addestrato supera gli altri modelli per l'analisi del sentiment e la Support Vector Machine con TF-IDF supera gli altri modelli per il rilevamento delle recensioni false. La previsione della valutazione delle recensioni si basa sul testo della recensione e i risultati mostrano che la Rete Neurale Artificiale con l'embedding Word2Vec pre-trained supera gli altri modelli.
File allegati
File Dimensione Formato  
2023_07_Takigawa_Thesis_01.pdf

accessibile in internet per tutti

Descrizione: Thesis
Dimensione 2.1 MB
Formato Adobe PDF
2.1 MB Adobe PDF Visualizza/Apri
2023_07_Takigawa_Executive_Summary_02.pdf

accessibile in internet per tutti

Descrizione: Executive Summary
Dimensione 498.48 kB
Formato Adobe PDF
498.48 kB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/210902