Topic Modeling for customer feedback analysis using Large Language Models

Topic Modelling (TM) is a statistical technique, in the Natural Language Processing (NLP) field, used to automatically discover latent topics in a document collection. TM is often employed for text analyses such as sentiment mining and trend detection. Customer feedback can be a valuable source of information for businesses. Companies can leverage user generated data to extract opinions about their products or services, to identify customer preferences, possible issues and make data-driven decisions accordingly. This work focuses on applying six state-of-the-art topic models (probabilistic and neural) on a dataset offered by a company. One of the models is a new framework based on Large Language Models (LLMs), specifically adapted to the use case. The objective is to automatize, make the process more efficient and extract relevant insights for the company. The available dataset offers the opportunity to compare the models on a specific setting not usually considered in literature: Italian short texts. The models are evaluated through a quantitative and qualitative analysis of the topics to assess their interpretability, diversity, closeness to the real clustering, stability and added value for the analysis. The results show that the models achieve comparable quantitative results, but the LLM-based model qualitatively outperforms the others. It generates more meaningful topics with a higher specificity, being able to delve into different aspects of the same theme. They have higher interpretability, adding valuable insights for the analysis without needing specific domain knowledge. Standard state-of-the-art models can’t achieve the same performance since they identify less interpretable topics, most of them without having a real meaning. This study allows to illustrate advantages and drawbacks of applying these models in a specific scenario where data is scarce and the content is limited. It allows to understand potential and limits of LLMs, with respect more standard models, in a classic NLP task.

Il Topic Modeling (TM) è una tecnica statistica, nel campo del Natural Language Processing (NLP), utilizzata per scoprire automaticamente i topic latenti in una raccolta di documenti. Il TM è spesso utilizzato per analisi testuali come il sentiment mining e il rilevamento delle tendenze. Il feedback dai clienti può essere una fonte preziosa di informazioni per le aziende. Le aziende possono sfruttare i dati generati dagli utenti per estrarre le opinioni sui loro prodotti o servizi, per identificare le preferenze dei clienti, eventuali problemi e prendere di conseguenza decisioni basate sui dati. Questo lavoro si concentra sull’applicazione di sei modelli di TM allo stato dell’arte (probabilistici e neurali) su un set di dati offerto da un’azienda. Uno dei modelli è un nuovo framework basato sui Large Language Models (LLMs), adattato specificatamente al caso in questione. L’obiettivo è automatizzare, rendere il processo più efficiente ed estrarre informazioni rilevanti per l’azienda. Il dataset disponibile offre l’opportunità di confrontare i modelli su un caso specifico, solitamente non affrontato in letteratura: testi brevi in italiano. I modelli sono valutati attraverso un’analisi quantitativa e qualitativa dei topic per valutarne l’interpretabilità, la diversità, la vicinanza al clustering reale, la stabilità e il valore aggiunto dato all’analisi. I risultati mostrano che i modelli ottengono risultati quantitativi comparabili, ma il modello basato sui LLMs supera qualitativamente gli altri. Genera topic più significativi con una maggiore specificità, in grado di approfondire diversi aspetti dello stesso tema. Hanno una maggiore interpretabilità, aggiungendo spunti preziosi per l’analisi senza bisogno di conoscenze specifiche del dominio. I modelli standard allo stato dell’arte non riescono a raggiungere le stesse prestazioni in quanto identificano meno topic interpretabili, la maggior parte dei quali privi di un significato reale. Questo studio permette di illustrare vantaggi e svantaggi dell’applicazione di questi modelli in uno specifico scenario dove i dati scarseggiano e il contenuto è limitato. Permette di comprendere le potenzialità e i limiti dei LLMs, rispetto a modelli standard, in una classica attività di NLP.