In the era of rapidly growing online sales, customer reviews have become a crucial factor in purchasing decisions. These reviews not only influence potential buyers but also provide valuable feedback to sellers about product performance and customer satisfaction. This thesis explores the application of topic modelling techniques to analyze customer reviews from the online retail sector, specifically focusing on product critiques and return reasons. The objective is to compare the efficacy of two prominent topic modelling algorithms, Latent Dirichlet Allocation (LDA) and BERTopic, in identifying underlying themes in customer feedback. Through a detailed literature review and thorough dataset pre-processing, the algorithms are employed to uncover latent topics in customer reviews. The performance of these models is evaluated using both quantitative metrics, such as coherence, silhouette and perplexity scores, and qualitative assessments of topic interpretability and relevance. The insights derived from this study aim to potentially assist companies in developing effective methods for understanding the primary drivers of product returns, thereby enhancing product design and customer satisfaction strategies. The findings reveal that the data cleaning steps and decisions in both LDA and BERTopic processes are crucial, significantly influencing quality metrics and interpretability of the topics. The research also demonstrates that a focused sub-category analysis leads to better clustering for interpretability and quality metrics. Product critiques are more comprehensible, and previously hidden issues emerge when the algorithm is applied stepwise to each sub-category of products rather than to the entire range, which may encompass diverse critique types. However, this approach necessitates effective sub-categorization of the dataset into distinct product types and a potential further dataset cleaning based on the most frequent terms used in the targeted sub-category group of reviews. This research contributes to the field of topic modelling by providing a comparative analysis of LDA and BERTopic, offering practical implications for improving customer engagement and reducing return rates through better-informed decision-making processes.

Nell'era delle vendite online in rapida crescita, le recensioni dei clienti sono diventate un fattore cruciale nelle decisioni di acquisto. Queste recensioni non solo influenzano i potenziali acquirenti, ma forniscono anche un prezioso feedback ai venditori riguardo alle prestazioni del prodotto e alla soddisfazione del cliente. Questa tesi esplora l'applicazione delle tecniche di topic modelling per analizzare le recensioni dei clienti nel settore del commercio al dettaglio online, concentrandosi specificamente sulle critiche dei prodotti e sui motivi di reso. L'obiettivo è confrontare l'efficacia di due importanti algoritmi di topic modelling, Latent Dirichlet Allocation (LDA) e BERTopic, nell'identificare i temi sottostanti nel feedback dei clienti. Attraverso una dettagliata revisione della letteratura e una accurata pre-elaborazione del dataset, gli algoritmi vengono impiegati per scoprire i temi latenti nelle recensioni dei clienti. Le prestazioni di questi modelli sono valutate utilizzando sia metriche quantitative, come coerenza, silhouette e punteggi di perplessità, sia valutazioni qualitative dell'interpretabilità e della rilevanza dei temi. Le intuizioni derivanti da questo studio mirano potenzialmente ad aiutare le aziende a sviluppare metodi efficaci per comprendere i principali fattori che guidano i resi dei prodotti, migliorando così la progettazione dei prodotti e le strategie di soddisfazione dei clienti. I risultati rivelano che i passaggi di pulizia dei dati e le decisioni nei processi di LDA e BERTopic sono cruciali, influenzando significativamente le metriche di qualità e l'interpretabilità dei temi. La ricerca dimostra anche che un'analisi focalizzata su una sottocategoria porta a una migliore suddivisione per interpretabilità e metriche di qualità. Le critiche ai prodotti risultano più comprensibili e emergono problemi precedentemente nascosti quando l'algoritmo viene applicato progressivamente a ciascuna sottocategoria di prodotti piuttosto che all'intera gamma, che può comprendere diversi tipi di critiche. Tuttavia, questo approccio richiede un'efficace suddivisione del dataset in distinti tipi di prodotto e una possibile ulteriore pulizia del dataset basata sui termini più frequenti utilizzati nel gruppo di recensioni della sottocategoria mirata. Questa ricerca contribuisce al campo del topic modelling fornendo un'analisi comparativa di LDA e BERTopic, offrendo implicazioni pratiche per migliorare il coinvolgimento dei clienti e ridurre i tassi di reso attraverso processi decisionali meglio informati.

Decoding customer feedback: employing topic modelling (BERTopic) to undertsand product return drivers from online reviews

LÉCHAUDÉ, ROMAIN MARC P
2023/2024

Abstract

In the era of rapidly growing online sales, customer reviews have become a crucial factor in purchasing decisions. These reviews not only influence potential buyers but also provide valuable feedback to sellers about product performance and customer satisfaction. This thesis explores the application of topic modelling techniques to analyze customer reviews from the online retail sector, specifically focusing on product critiques and return reasons. The objective is to compare the efficacy of two prominent topic modelling algorithms, Latent Dirichlet Allocation (LDA) and BERTopic, in identifying underlying themes in customer feedback. Through a detailed literature review and thorough dataset pre-processing, the algorithms are employed to uncover latent topics in customer reviews. The performance of these models is evaluated using both quantitative metrics, such as coherence, silhouette and perplexity scores, and qualitative assessments of topic interpretability and relevance. The insights derived from this study aim to potentially assist companies in developing effective methods for understanding the primary drivers of product returns, thereby enhancing product design and customer satisfaction strategies. The findings reveal that the data cleaning steps and decisions in both LDA and BERTopic processes are crucial, significantly influencing quality metrics and interpretability of the topics. The research also demonstrates that a focused sub-category analysis leads to better clustering for interpretability and quality metrics. Product critiques are more comprehensible, and previously hidden issues emerge when the algorithm is applied stepwise to each sub-category of products rather than to the entire range, which may encompass diverse critique types. However, this approach necessitates effective sub-categorization of the dataset into distinct product types and a potential further dataset cleaning based on the most frequent terms used in the targeted sub-category group of reviews. This research contributes to the field of topic modelling by providing a comparative analysis of LDA and BERTopic, offering practical implications for improving customer engagement and reducing return rates through better-informed decision-making processes.
ING - Scuola di Ingegneria Industriale e dell'Informazione
16-lug-2024
2023/2024
Nell'era delle vendite online in rapida crescita, le recensioni dei clienti sono diventate un fattore cruciale nelle decisioni di acquisto. Queste recensioni non solo influenzano i potenziali acquirenti, ma forniscono anche un prezioso feedback ai venditori riguardo alle prestazioni del prodotto e alla soddisfazione del cliente. Questa tesi esplora l'applicazione delle tecniche di topic modelling per analizzare le recensioni dei clienti nel settore del commercio al dettaglio online, concentrandosi specificamente sulle critiche dei prodotti e sui motivi di reso. L'obiettivo è confrontare l'efficacia di due importanti algoritmi di topic modelling, Latent Dirichlet Allocation (LDA) e BERTopic, nell'identificare i temi sottostanti nel feedback dei clienti. Attraverso una dettagliata revisione della letteratura e una accurata pre-elaborazione del dataset, gli algoritmi vengono impiegati per scoprire i temi latenti nelle recensioni dei clienti. Le prestazioni di questi modelli sono valutate utilizzando sia metriche quantitative, come coerenza, silhouette e punteggi di perplessità, sia valutazioni qualitative dell'interpretabilità e della rilevanza dei temi. Le intuizioni derivanti da questo studio mirano potenzialmente ad aiutare le aziende a sviluppare metodi efficaci per comprendere i principali fattori che guidano i resi dei prodotti, migliorando così la progettazione dei prodotti e le strategie di soddisfazione dei clienti. I risultati rivelano che i passaggi di pulizia dei dati e le decisioni nei processi di LDA e BERTopic sono cruciali, influenzando significativamente le metriche di qualità e l'interpretabilità dei temi. La ricerca dimostra anche che un'analisi focalizzata su una sottocategoria porta a una migliore suddivisione per interpretabilità e metriche di qualità. Le critiche ai prodotti risultano più comprensibili e emergono problemi precedentemente nascosti quando l'algoritmo viene applicato progressivamente a ciascuna sottocategoria di prodotti piuttosto che all'intera gamma, che può comprendere diversi tipi di critiche. Tuttavia, questo approccio richiede un'efficace suddivisione del dataset in distinti tipi di prodotto e una possibile ulteriore pulizia del dataset basata sui termini più frequenti utilizzati nel gruppo di recensioni della sottocategoria mirata. Questa ricerca contribuisce al campo del topic modelling fornendo un'analisi comparativa di LDA e BERTopic, offrendo implicazioni pratiche per migliorare il coinvolgimento dei clienti e ridurre i tassi di reso attraverso processi decisionali meglio informati.
File allegati
File Dimensione Formato  
2024_07_Lechaude.pdf

accessibile in internet per tutti

Descrizione: Decoding Customer Feedback: Employing Topic Modelling (BERTopic) to Understand Product Return Drivers from Online Reviews
Dimensione 3.53 MB
Formato Adobe PDF
3.53 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/222758