A comparative study of machine learning and deep learning algorithms for sentiment analysis in restaurant reviews

This thesis project is aimed at a comparative examination of the sentiment analysis problem in the context of restaurant reviews. User-generated contents, which constitute our input, are collected from two popular web-based platforms, namely Yelp and Zomato. Establishing a systematic approach, the research begins by providing the reader with the key concepts necessary for understanding subsequent findings. Guided by data science principles, the process encompasses data collection, pre-processing, exploratory data analysis, feature engineering, and model development. To be more precise, the latter step involves choosing, training, and assessing an array of algorithms targeting at classifying the analyzed reviews. The research core covers the practical implementation of the outlined steps, employing predictive models ranging from traditional machine learning techniques (Logistic Regression, Random Forest) to deep neural networks (Convolutional Neural Network, Long Short-Term Memory), and advanced large language models (BERT, GPT-2, GPT-3). These algorithms, individually or embedded, address two complementary tasks, i.e., 5-class rating prediction and 3-class sentiment classification on both datasets. Following training, fine-tuning, and validation, the results are assessed using accuracy metrics. For this purpose, visualization methods aid in the interpretation of each technique and their outputs, providing a broad context for result awareness. The thesis concludes with a discussion of the completed experiments, offering insights for future improvements.

Questo progetto di tesi è finalizzato a un esame comparativo del problema della sentiment analysis nel contesto delle recensioni di ristoranti. I contenuti generati dagli utenti, che costituiscono il nostro input, sono raccolti da due popolari piattaforme web, Yelp e Zomato. Stabilendo un approccio sistematico, la ricerca inizia fornendo al lettore i concetti chiave necessari per comprendere i risultati successivi. Guidato dai principi della scienza dei dati, il processo comprende la raccolta dei dati, la pre-elaborazione, l'analisi esplorativa dei dati, l'ingegneria delle caratteristiche e lo sviluppo del modello. Per essere più precisi, quest'ultima fase prevede la scelta, l'addestramento e la valutazione di una serie di algoritmi mirati alla classificazione delle recensioni analizzate. Il nucleo della ricerca riguarda l'implementazione pratica delle fasi descritte, impiegando modelli predittivi che vanno dalle tradizionali tecniche di apprendimento automatico (Logistic Regression, Random Forest) alle reti neurali profonde (Convolutional Neural Network, Long Short-Term Memory), fino ai modelli avanzati di grande linguaggio (BERT, GPT-2, GPT-3). Questi algoritmi, singolarmente o integrati, affrontano due compiti complementari, ossia la previsione di rating a 5 classi e la classificazione del sentiment a 3 classi su entrambi i set di dati. Dopo l'addestramento, il fine-tuning e la convalida, i risultati vengono valutati con metriche di accuratezza. A questo scopo, i metodi di visualizzazione aiutano a interpretare ogni tecnica e i suoi risultati, fornendo un ampio contesto per la consapevolezza dei risultati. La tesi si conclude con una discussione degli esperimenti completati, offrendo spunti per futuri miglioramenti.