Nowadays, Machine Learning techniques are becoming more and more crucial in driving business decisions. The recent advancements in the Deep Learning field and its applications on Natural Language Processing (NLP) have opened the possibility to analyze any kind of data, among which speech data, which is typically collected by modern companies through customer care services. This thesis aims to introduce and test an end-to-end Data Science pipeline to automatically analyze speech data coming from a company's customer care service, in order to provide insights about the customer's dissatisfaction reasons. The goal is the one of providing a methodology to identify, group, and analyze these dissatisfaction reasons. To pursue this goal, we implement a multi-stage pipeline that transcribes the audio data by means of a state-of-the-art Automatic Speech Recognition (ASR) system provided by Google, pre-processes the obtained transcripts in order to simplify their structure and remove the inherent noise present in human-to-human spoken conversations, and analyzes them by means of a state-of-the-art Topic Modeling algorithm, that is BERTopic, based on the most recent techniques to represent textual documents. The developed pipeline and the BERTopic model have been tuned and configured to analyze the audio data in almost real-time, in order to continuously monitor the identified dissatisfaction reasons as new data is being collected. The proposed study is carried out on real Italian audio data generated between operators and customers of the call center of one of the world's major multimedia and publishing companies. The development of the pipeline is accompanied by a careful analysis and evaluation of all its parts: several experiments are performed in order to validate the approach, but also the several components that compose the system, with an important focus on contributing to the NLP applications for the Italian natural language, which is a low-resource language in the NLP literature. The thesis will provide results regarding the performance of the Google ASR system with the Italian data of the considered use case, a comparison of several Italian pre-trained language models in a Topic Modeling task performed with BERTopic, and a comparison between the more traditional LDA topic modeling technique and BERTopic. The experimental results demonstrate the approach's efficacy in continuously extracting topics from Italian speech recording data with a near real-time approach. According to recent works in the literature, the proposed pipeline and the followed methodology may be valuable resources for introducing a state-of-the-art end-to-end framework for analyzing audio data for the Italian natural language by means of a Topic Modeling unsupervised approach.

Al giorno d'oggi, le tecniche di Machine Learning stanno diventando sempre più cruciali nel guidare le decisioni aziendali. I recenti progressi nel campo del Deep Learning e le sue applicazioni al Natural Language Processing (NLP) hanno aperto la possibilità di analizzare qualsiasi tipo di dati, tra cui i dati vocali, che sono tipicamente raccolti dalle aziende moderne tramite i servizi di assistenza ai clienti. Questa tesi si propone di introdurre e testare una pipeline end-to-end di Data Science per analizzare automaticamente i dati vocali provenienti dal servizio di assistenza clienti di un'azienda, al fine di fornire informazioni sui motivi di insoddisfazione dei clienti. L'obiettivo è quello di fornire una metodologia per identificare, raggruppare e analizzare questi motivi di insoddisfazione. Per perseguire questo obiettivo, abbiamo implementato una pipeline a più stadi che trascrive i dati audio mediante un sistema di Automatic Speech Recognition (ASR) all'avanguardia fornito da Google, pre-processa le trascrizioni ottenute per semplificarne la struttura e rimuovere il rumore intrinseco presente nelle conversazioni parlate tra esseri umani, e le analizza con un algoritmo di Topic Modeling all'avanguardia, ovvero BERTopic, basato sulle più recenti tecniche di rappresentazione dei documenti testuali. La pipeline sviluppata e il modello BERTopic sono stati ottimizzati e configurati per analizzare i dati audio quasi in tempo reale, al fine di monitorare continuamente i motivi di insoddisfazione identificati mentre vengono raccolti nuovi dati. Lo studio proposto è stato condotto su dati audio italiani reali generati tra operatori e clienti del call center di una delle maggiori aziende multimediali ed editoriali del mondo. Lo sviluppo della pipeline è accompagnato da un'attenta analisi e valutazione di tutte le sue parti: sono stati eseguiti diversi esperimenti per convalidare l'approccio, ma anche i diversi componenti che compongono il sistema, con l'obiettivo di contribuire alle applicazioni di NLP per la lingua naturale italiana, che è una lingua a basso contenuto di risorse nella letteratura NLP. La tesi fornirà i risultati relativi alle prestazioni del sistema ASR di Google con i dati italiani del caso d'uso considerato, un confronto tra diversi language models italiani preaddestrati in un compito di Topic Modeling eseguito con BERTopic, e un confronto tra la più tradizionale tecnica di Topic Modeling LDA e BERTopic. I risultati sperimentali dimostrano l'efficacia dell'approccio nell'estrazione continua di topics da dati di registrazione vocale italiani con un approccio quasi in tempo reale. Secondo i recenti lavori della letteratura, la pipeline proposta e la metodologia seguita possono essere risorse preziose per l'introduzione di un framework end-to-end allo stato dell'arte per l'analisi dei dati audio per la lingua naturale italiana attraverso un approccio di Topic Modeling non supervisionato.

A data science pipeline to analyze customer care audio data through an incremental topic modeling approach

Lapi, Denaldo
2022/2023

Abstract

Nowadays, Machine Learning techniques are becoming more and more crucial in driving business decisions. The recent advancements in the Deep Learning field and its applications on Natural Language Processing (NLP) have opened the possibility to analyze any kind of data, among which speech data, which is typically collected by modern companies through customer care services. This thesis aims to introduce and test an end-to-end Data Science pipeline to automatically analyze speech data coming from a company's customer care service, in order to provide insights about the customer's dissatisfaction reasons. The goal is the one of providing a methodology to identify, group, and analyze these dissatisfaction reasons. To pursue this goal, we implement a multi-stage pipeline that transcribes the audio data by means of a state-of-the-art Automatic Speech Recognition (ASR) system provided by Google, pre-processes the obtained transcripts in order to simplify their structure and remove the inherent noise present in human-to-human spoken conversations, and analyzes them by means of a state-of-the-art Topic Modeling algorithm, that is BERTopic, based on the most recent techniques to represent textual documents. The developed pipeline and the BERTopic model have been tuned and configured to analyze the audio data in almost real-time, in order to continuously monitor the identified dissatisfaction reasons as new data is being collected. The proposed study is carried out on real Italian audio data generated between operators and customers of the call center of one of the world's major multimedia and publishing companies. The development of the pipeline is accompanied by a careful analysis and evaluation of all its parts: several experiments are performed in order to validate the approach, but also the several components that compose the system, with an important focus on contributing to the NLP applications for the Italian natural language, which is a low-resource language in the NLP literature. The thesis will provide results regarding the performance of the Google ASR system with the Italian data of the considered use case, a comparison of several Italian pre-trained language models in a Topic Modeling task performed with BERTopic, and a comparison between the more traditional LDA topic modeling technique and BERTopic. The experimental results demonstrate the approach's efficacy in continuously extracting topics from Italian speech recording data with a near real-time approach. According to recent works in the literature, the proposed pipeline and the followed methodology may be valuable resources for introducing a state-of-the-art end-to-end framework for analyzing audio data for the Italian natural language by means of a Topic Modeling unsupervised approach.
PASQUALI, ANDREA
ING - Scuola di Ingegneria Industriale e dell'Informazione
4-mag-2023
2022/2023
Al giorno d'oggi, le tecniche di Machine Learning stanno diventando sempre più cruciali nel guidare le decisioni aziendali. I recenti progressi nel campo del Deep Learning e le sue applicazioni al Natural Language Processing (NLP) hanno aperto la possibilità di analizzare qualsiasi tipo di dati, tra cui i dati vocali, che sono tipicamente raccolti dalle aziende moderne tramite i servizi di assistenza ai clienti. Questa tesi si propone di introdurre e testare una pipeline end-to-end di Data Science per analizzare automaticamente i dati vocali provenienti dal servizio di assistenza clienti di un'azienda, al fine di fornire informazioni sui motivi di insoddisfazione dei clienti. L'obiettivo è quello di fornire una metodologia per identificare, raggruppare e analizzare questi motivi di insoddisfazione. Per perseguire questo obiettivo, abbiamo implementato una pipeline a più stadi che trascrive i dati audio mediante un sistema di Automatic Speech Recognition (ASR) all'avanguardia fornito da Google, pre-processa le trascrizioni ottenute per semplificarne la struttura e rimuovere il rumore intrinseco presente nelle conversazioni parlate tra esseri umani, e le analizza con un algoritmo di Topic Modeling all'avanguardia, ovvero BERTopic, basato sulle più recenti tecniche di rappresentazione dei documenti testuali. La pipeline sviluppata e il modello BERTopic sono stati ottimizzati e configurati per analizzare i dati audio quasi in tempo reale, al fine di monitorare continuamente i motivi di insoddisfazione identificati mentre vengono raccolti nuovi dati. Lo studio proposto è stato condotto su dati audio italiani reali generati tra operatori e clienti del call center di una delle maggiori aziende multimediali ed editoriali del mondo. Lo sviluppo della pipeline è accompagnato da un'attenta analisi e valutazione di tutte le sue parti: sono stati eseguiti diversi esperimenti per convalidare l'approccio, ma anche i diversi componenti che compongono il sistema, con l'obiettivo di contribuire alle applicazioni di NLP per la lingua naturale italiana, che è una lingua a basso contenuto di risorse nella letteratura NLP. La tesi fornirà i risultati relativi alle prestazioni del sistema ASR di Google con i dati italiani del caso d'uso considerato, un confronto tra diversi language models italiani preaddestrati in un compito di Topic Modeling eseguito con BERTopic, e un confronto tra la più tradizionale tecnica di Topic Modeling LDA e BERTopic. I risultati sperimentali dimostrano l'efficacia dell'approccio nell'estrazione continua di topics da dati di registrazione vocale italiani con un approccio quasi in tempo reale. Secondo i recenti lavori della letteratura, la pipeline proposta e la metodologia seguita possono essere risorse preziose per l'introduzione di un framework end-to-end allo stato dell'arte per l'analisi dei dati audio per la lingua naturale italiana attraverso un approccio di Topic Modeling non supervisionato.
File allegati
File Dimensione Formato  
2023_05_Lapi_Tesi_01.pdf

embargo fino al 10/04/2026

Descrizione: Tesi
Dimensione 2.46 MB
Formato Adobe PDF
2.46 MB Adobe PDF   Visualizza/Apri
2023_05_Lapi_Executive Summary_02.pdf

embargo fino al 10/04/2026

Descrizione: Executive Summary
Dimensione 831.7 kB
Formato Adobe PDF
831.7 kB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/205095