This thesis project is aimed at a comparative examination of the sentiment analysis problem in the context of restaurant reviews. User-generated contents, which constitute our input, are collected from two popular web-based platforms, namely Yelp and Zomato. Establishing a systematic approach, the research begins by providing the reader with the key concepts necessary for understanding subsequent findings. Guided by data science principles, the process encompasses data collection, pre-processing, exploratory data analysis, feature engineering, and model development. To be more precise, the latter step involves choosing, training, and assessing an array of algorithms targeting at classifying the analyzed reviews. The research core covers the practical implementation of the outlined steps, employing predictive models ranging from traditional machine learning techniques (Logistic Regression, Random Forest) to deep neural networks (Convolutional Neural Network, Long Short-Term Memory), and advanced large language models (BERT, GPT-2, GPT-3). These algorithms, individually or embedded, address two complementary tasks, i.e., 5-class rating prediction and 3-class sentiment classification on both datasets. Following training, fine-tuning, and validation, the results are assessed using accuracy metrics. For this purpose, visualization methods aid in the interpretation of each technique and their outputs, providing a broad context for result awareness. The thesis concludes with a discussion of the completed experiments, offering insights for future improvements.

Questo progetto di tesi è finalizzato a un esame comparativo del problema della sentiment analysis nel contesto delle recensioni di ristoranti. I contenuti generati dagli utenti, che costituiscono il nostro input, sono raccolti da due popolari piattaforme web, Yelp e Zomato. Stabilendo un approccio sistematico, la ricerca inizia fornendo al lettore i concetti chiave necessari per comprendere i risultati successivi. Guidato dai principi della scienza dei dati, il processo comprende la raccolta dei dati, la pre-elaborazione, l'analisi esplorativa dei dati, l'ingegneria delle caratteristiche e lo sviluppo del modello. Per essere più precisi, quest'ultima fase prevede la scelta, l'addestramento e la valutazione di una serie di algoritmi mirati alla classificazione delle recensioni analizzate. Il nucleo della ricerca riguarda l'implementazione pratica delle fasi descritte, impiegando modelli predittivi che vanno dalle tradizionali tecniche di apprendimento automatico (Logistic Regression, Random Forest) alle reti neurali profonde (Convolutional Neural Network, Long Short-Term Memory), fino ai modelli avanzati di grande linguaggio (BERT, GPT-2, GPT-3). Questi algoritmi, singolarmente o integrati, affrontano due compiti complementari, ossia la previsione di rating a 5 classi e la classificazione del sentiment a 3 classi su entrambi i set di dati. Dopo l'addestramento, il fine-tuning e la convalida, i risultati vengono valutati con metriche di accuratezza. A questo scopo, i metodi di visualizzazione aiutano a interpretare ogni tecnica e i suoi risultati, fornendo un ampio contesto per la consapevolezza dei risultati. La tesi si conclude con una discussione degli esperimenti completati, offrendo spunti per futuri miglioramenti.

A comparative study of machine learning and deep learning algorithms for sentiment analysis in restaurant reviews

Vella, Adriana
2022/2023

Abstract

This thesis project is aimed at a comparative examination of the sentiment analysis problem in the context of restaurant reviews. User-generated contents, which constitute our input, are collected from two popular web-based platforms, namely Yelp and Zomato. Establishing a systematic approach, the research begins by providing the reader with the key concepts necessary for understanding subsequent findings. Guided by data science principles, the process encompasses data collection, pre-processing, exploratory data analysis, feature engineering, and model development. To be more precise, the latter step involves choosing, training, and assessing an array of algorithms targeting at classifying the analyzed reviews. The research core covers the practical implementation of the outlined steps, employing predictive models ranging from traditional machine learning techniques (Logistic Regression, Random Forest) to deep neural networks (Convolutional Neural Network, Long Short-Term Memory), and advanced large language models (BERT, GPT-2, GPT-3). These algorithms, individually or embedded, address two complementary tasks, i.e., 5-class rating prediction and 3-class sentiment classification on both datasets. Following training, fine-tuning, and validation, the results are assessed using accuracy metrics. For this purpose, visualization methods aid in the interpretation of each technique and their outputs, providing a broad context for result awareness. The thesis concludes with a discussion of the completed experiments, offering insights for future improvements.
TOCCHETTI, ANDREA
ING - Scuola di Ingegneria Industriale e dell'Informazione
19-dic-2023
2022/2023
Questo progetto di tesi è finalizzato a un esame comparativo del problema della sentiment analysis nel contesto delle recensioni di ristoranti. I contenuti generati dagli utenti, che costituiscono il nostro input, sono raccolti da due popolari piattaforme web, Yelp e Zomato. Stabilendo un approccio sistematico, la ricerca inizia fornendo al lettore i concetti chiave necessari per comprendere i risultati successivi. Guidato dai principi della scienza dei dati, il processo comprende la raccolta dei dati, la pre-elaborazione, l'analisi esplorativa dei dati, l'ingegneria delle caratteristiche e lo sviluppo del modello. Per essere più precisi, quest'ultima fase prevede la scelta, l'addestramento e la valutazione di una serie di algoritmi mirati alla classificazione delle recensioni analizzate. Il nucleo della ricerca riguarda l'implementazione pratica delle fasi descritte, impiegando modelli predittivi che vanno dalle tradizionali tecniche di apprendimento automatico (Logistic Regression, Random Forest) alle reti neurali profonde (Convolutional Neural Network, Long Short-Term Memory), fino ai modelli avanzati di grande linguaggio (BERT, GPT-2, GPT-3). Questi algoritmi, singolarmente o integrati, affrontano due compiti complementari, ossia la previsione di rating a 5 classi e la classificazione del sentiment a 3 classi su entrambi i set di dati. Dopo l'addestramento, il fine-tuning e la convalida, i risultati vengono valutati con metriche di accuratezza. A questo scopo, i metodi di visualizzazione aiutano a interpretare ogni tecnica e i suoi risultati, fornendo un ampio contesto per la consapevolezza dei risultati. La tesi si conclude con una discussione degli esperimenti completati, offrendo spunti per futuri miglioramenti.
File allegati
File Dimensione Formato  
2023_12_Vella.pdf

solo utenti autorizzati a partire dal 27/11/2026

Descrizione: Elaborato di tesi
Dimensione 5.1 MB
Formato Adobe PDF
5.1 MB Adobe PDF   Visualizza/Apri
2023_12_Executive_Summary_Vella.pdf

solo utenti autorizzati a partire dal 27/11/2026

Descrizione: Executive Summary
Dimensione 479.77 kB
Formato Adobe PDF
479.77 kB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/214930