As Natural Language Processing (NLP) technologies become increasingly integrated into various processes and industries, it’s crucial to understand their effectiveness in specific domains. This research was conducted at the Milan Innovation Lab of the Schindler Group and focuses on the ability of NLP models to classify elevator repair reports. The presence of noisy and imperfect labels raises a critical question: how can we ensure the reliability of a classifier when the training label definition is unclear? The primary objective of this project is to evaluate classifiers on technical data and improve them when training labels are imperfect. Additionally, with the emergence of LLMs and chatbots like ChatGPT, it’s important to understand their efficacy in particular contexts. On our specific data, we found that zero-shot classifiers based on LLM were much less effective than smaller models trained on data. To address highly confused and noisy labels, we propose a novel semi-supervised hierarchical clustering algorithm (SS-AHC) that organizes imperfect labels into more coherent macro categories. This process of label quality improvement proved essential in enhancing the performance of classifiers. By grouping labels into more general macro-categories, ChatGPT zero-shot showed comparable performance with trained models, highlighting the potential applicability of ChatGPT even in highly technical fields when the task is not too specific.

Con la diffusione e il maggiore utilizzo di modelli di Elaborazione del Linguaggio Naturale in vari settori, emerge la necessità di esplorare la loro efficacia in ambiti specifici. Questa ricerca, sviluppata all’interno del Milan Innovation Lab del Gruppo Schindler, mira a esaminare le capacità di modelli NLP nel classificare i report di riparazione degli ascensori – documenti spesso concisi e ricchi di rumore. La presenza di etichette rumorose e imperfette solleva una domanda critica: come possiamo garantire l’affidabilità di un classificatore quando la definizione dell’etichetta di addestramento non è chiara? L’obiettivo principale del progetto è valutare i classificatori sui dati tecnici e comprendere come migliorarli quando le etichette su cui sono addestrati soon imperfette. Inoltre, con l’emergere di LLM e potenti chatbot come ChatGPT, è importante comprendere la loro precisione in contesti specifici. Nel nostro caso, i classificatori zero-shot basati su LLM si sono rivelati ancora lontani dalle prestazioni di modelli più piccoli ma addestrati sui dati. Per gestire etichette altamente confuse e rumorose, proponiamo un nuovo algoritmo di clustering gerarchico semi-supervisionato (SS-AHC) che organizza le etichette imperfette in macrocategorie più coerenti. Questo processo di miglioramento delle etichette si è rivelato essenziale per migliorare le prestazioni dei modelli NLP nel classificare testi tecnici. Raggruppando le etichette in macrocategorie più generali, ChatGPT zero-shot ha mostrato prestazioni paragonabili a modelli addestrati, evidenziando la sua potenziale applicabilità anche in campi altamente tecnici quando il compito non è troppo specifico.

Classification of short technical texts in the framework of imperfect and noisy labels: a case study on elevator repair documents

Mainini, Luca
2022/2023

Abstract

As Natural Language Processing (NLP) technologies become increasingly integrated into various processes and industries, it’s crucial to understand their effectiveness in specific domains. This research was conducted at the Milan Innovation Lab of the Schindler Group and focuses on the ability of NLP models to classify elevator repair reports. The presence of noisy and imperfect labels raises a critical question: how can we ensure the reliability of a classifier when the training label definition is unclear? The primary objective of this project is to evaluate classifiers on technical data and improve them when training labels are imperfect. Additionally, with the emergence of LLMs and chatbots like ChatGPT, it’s important to understand their efficacy in particular contexts. On our specific data, we found that zero-shot classifiers based on LLM were much less effective than smaller models trained on data. To address highly confused and noisy labels, we propose a novel semi-supervised hierarchical clustering algorithm (SS-AHC) that organizes imperfect labels into more coherent macro categories. This process of label quality improvement proved essential in enhancing the performance of classifiers. By grouping labels into more general macro-categories, ChatGPT zero-shot showed comparable performance with trained models, highlighting the potential applicability of ChatGPT even in highly technical fields when the task is not too specific.
ISCHIA, NICOLA
SCOTTI, VINCENZO
ING - Scuola di Ingegneria Industriale e dell'Informazione
19-dic-2023
2022/2023
Con la diffusione e il maggiore utilizzo di modelli di Elaborazione del Linguaggio Naturale in vari settori, emerge la necessità di esplorare la loro efficacia in ambiti specifici. Questa ricerca, sviluppata all’interno del Milan Innovation Lab del Gruppo Schindler, mira a esaminare le capacità di modelli NLP nel classificare i report di riparazione degli ascensori – documenti spesso concisi e ricchi di rumore. La presenza di etichette rumorose e imperfette solleva una domanda critica: come possiamo garantire l’affidabilità di un classificatore quando la definizione dell’etichetta di addestramento non è chiara? L’obiettivo principale del progetto è valutare i classificatori sui dati tecnici e comprendere come migliorarli quando le etichette su cui sono addestrati soon imperfette. Inoltre, con l’emergere di LLM e potenti chatbot come ChatGPT, è importante comprendere la loro precisione in contesti specifici. Nel nostro caso, i classificatori zero-shot basati su LLM si sono rivelati ancora lontani dalle prestazioni di modelli più piccoli ma addestrati sui dati. Per gestire etichette altamente confuse e rumorose, proponiamo un nuovo algoritmo di clustering gerarchico semi-supervisionato (SS-AHC) che organizza le etichette imperfette in macrocategorie più coerenti. Questo processo di miglioramento delle etichette si è rivelato essenziale per migliorare le prestazioni dei modelli NLP nel classificare testi tecnici. Raggruppando le etichette in macrocategorie più generali, ChatGPT zero-shot ha mostrato prestazioni paragonabili a modelli addestrati, evidenziando la sua potenziale applicabilità anche in campi altamente tecnici quando il compito non è troppo specifico.
File allegati
File Dimensione Formato  
2023_12_Mainini.pdf

non accessibile

Descrizione: Thesis
Dimensione 4.14 MB
Formato Adobe PDF
4.14 MB Adobe PDF   Visualizza/Apri
2023_12_Mainini_Executive_Summary.pdf

non accessibile

Descrizione: Executive Summary
Dimensione 850.44 kB
Formato Adobe PDF
850.44 kB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/214469