Recent years have witnessed a remarkable surge in Artificial Intelligence (AI), permeating diverse domains and streamlining tasks for enhanced efficiency. Within this landscape, the realm of Natural Language Processing (NLP) has garnered significant attention, offering the promise of automating tasks involving human language. This thesis is propelled by a profound interest in the practical applications of AI and NLP, particularly within industrial contexts where unlabeled data is abundant yet laborious to annotate. The study focuses on Active Learning, with a distinctive emphasis on its 'cold start' phase, a scenario common in real-world applications where limited or no labels are available. Active Learning, a specialized branch of machine learning, goes beyond conventional training by selecting the most informative data points for labeling, operating under the premise that strategic data selection can lead to superior performance with fewer training instances. This is particularly advantageous when abundant unlabeled data exists, but labeling is a resource-intensive endeavor. By intelligently interacting with a human expert, referred to as an oracle, an active learner acquires true labels for select data points, with the goal of minimizing labeling efforts without compromising learning efficacy. \\\\ The thesis centers on two pivotal phases of active learning: the 'cold start' and the subsequent 'warm start'. The quality of the initial pool of labeled data, often referred to as the 'cold start' phase, significantly influences the efficiency and accuracy of ensuing learning iterations. However, this critical phase remains underexplored, particularly in the context of text classification. The study aims to bridge this knowledge gap, focusing on techniques that can judiciously construct an initial labeled pool to enable more effective sampling decisions in later iterations, ultimately optimizing the active learning process. \\\\ Moreover, this research holds paramount relevance in the contemporary technological landscape. For instance, in the case of Altilia, a company specializing in AI-driven intelligent document processing, the intelligent selection of instances for labeling during the early stages of active learning is of paramount importance given the cost associated with labeling documents. \\\\ The study seeks to answer two fundamental research questions: Can cold start techniques enhance subsequent active learning iterations? When do warm start techniques outperform their cold start counterparts? The investigation is driven by the hypothesis that while cold start techniques excel in the early stages, warm start techniques, leveraging uncertainty measures, eventually supersede them. Nevertheless, optimizing the initial sample selection holds potential for significant process enhancements. \\\\ The thesis significantly advances the domain of active learning, with a specific focus on the initial 'cold start' phase in text classification. It introduces a pioneering methodology for gauging the efficacy of cold start techniques and establishes an experimental framework for rigorous comparative analysis. Moreover, the thesis introduces three innovative cold start techniques, broadening the spectrum of available methodologies in active learning. These contributions collectively underscore the notion that substantial progress is often the result of incremental advancements.

Negli ultimi anni si è assistito aad una notevole crescita nel campo dell'Intelligenza Artificiale (IA), che permea diversi settori e ottimizza compiti per una maggiore efficienza. In questo contesto, il campo dell'Elaborazione del Linguaggio Naturale (NLP) ha attirato notevole attenzione, offrendo la promessa di automatizzare compiti che coinvolgono il linguaggio umano. Questa tesi è guidata da un profondo interesse nelle applicazioni pratiche di IA e NLP, specialmente nei contesti industriali dove i dati non etichettati sono abbondanti ma laboriosi da annotare. Lo studio si concentra sull'Apprendimento Attivo, con un enfasi particolare sulla sua fase di "partenza a freddo", una situazione comune nelle applicazioni reali dove sono disponibili poche o nessuna etichetta. L'Apprendimento Attivo, un ramo specializzato dell'apprendimento automatico, va oltre l'addestramento convenzionale selezionando i punti dati più informativi da etichettare, operando con la premessa che la selezione strategica dei dati possa portare a prestazioni superiori con meno istanze di addestramento. Questo è particolarmente vantaggioso quando esistono dati non etichettati abbondanti, ma l'etichettatura è un'attività che richiede molte risorse. Interagendo intelligentemente con un esperto umano, chiamato oracolo, un apprendista attivo acquisisce etichette vere per determinati punti dati, con l'obiettivo di ridurre al minimo gli sforzi di etichettatura senza compromettere l'efficacia dell'apprendimento. La tesi si concentra su due fasi cruciali dell'apprendimento attivo: la "partenza a freddo" e la successiva "partenza a caldo". La qualità del pool iniziale di dati etichettati, spesso definita fase di "partenza a freddo", influenza significativamente l'efficienza e l'accuratezza delle iterazioni di apprendimento successive. Tuttavia, questa fase critica rimane poco esplorata, specialmente nel contesto della classificazione del testo. Lo studio mira a colmare questa lacuna di conoscenza, concentrandosi su tecniche che possono costruire con giudizio un pool iniziale etichettato per consentire decisioni di campionamento più efficaci nelle iterazioni successive, ottimizzando infine il processo di apprendimento attivo. Inoltre, questa ricerca ha una rilevanza fondamentale nel contesto tecnologico contemporaneo. Ad esempio, nel caso di Altilia, un'azienda specializzata nell'elaborazione intelligente di documenti basata sull'IA, la selezione intelligente di istanze da etichettare durante le prime fasi dell'apprendimento attivo è di importanza primaria data la spesa associata all'etichettatura dei documenti. Lo studio cerca di rispondere a due domande di ricerca fondamentali: Le tecniche di partenza a freddo possono migliorare le iterazioni successive dell'apprendimento attivo? A che punto del processo iterativo le tecniche di partenza a caldo superano i loro corrispettivi di partenza a freddo? L'indagine è guidata dall'ipotesi che mentre le tecniche di partenza a freddo eccellono nelle fasi iniziali, le tecniche di partenza a caldo, sfruttando misure di incertezza, le superino sul "lungo termine". Tuttavia, ottimizzare la selezione iniziale del campione ha il potenziale per miglioramenti significativi del processo. La tesi di ricerca porta avanzamenti significativi nel campo dell'apprendimento attivo, con un focus specifico sulla fase iniziale di "partenza a freddo" nella classificazione del testo. La tesi introduce una metodologia pionieristica per valutare l'efficacia delle tecniche di partenza a freddo e stabilisce un quadro sperimentale per un'analisi comparativa rigorosa. Inoltre, la tesi introduce tre innovative tecniche di partenza a freddo, ampliando lo spettro delle metodologie disponibili nell'apprendimento attivo.

Cold start active learning for text classification of business documents

BACHIR KADDIS BESHAY, AMIR
2022/2023

Abstract

Recent years have witnessed a remarkable surge in Artificial Intelligence (AI), permeating diverse domains and streamlining tasks for enhanced efficiency. Within this landscape, the realm of Natural Language Processing (NLP) has garnered significant attention, offering the promise of automating tasks involving human language. This thesis is propelled by a profound interest in the practical applications of AI and NLP, particularly within industrial contexts where unlabeled data is abundant yet laborious to annotate. The study focuses on Active Learning, with a distinctive emphasis on its 'cold start' phase, a scenario common in real-world applications where limited or no labels are available. Active Learning, a specialized branch of machine learning, goes beyond conventional training by selecting the most informative data points for labeling, operating under the premise that strategic data selection can lead to superior performance with fewer training instances. This is particularly advantageous when abundant unlabeled data exists, but labeling is a resource-intensive endeavor. By intelligently interacting with a human expert, referred to as an oracle, an active learner acquires true labels for select data points, with the goal of minimizing labeling efforts without compromising learning efficacy. \\\\ The thesis centers on two pivotal phases of active learning: the 'cold start' and the subsequent 'warm start'. The quality of the initial pool of labeled data, often referred to as the 'cold start' phase, significantly influences the efficiency and accuracy of ensuing learning iterations. However, this critical phase remains underexplored, particularly in the context of text classification. The study aims to bridge this knowledge gap, focusing on techniques that can judiciously construct an initial labeled pool to enable more effective sampling decisions in later iterations, ultimately optimizing the active learning process. \\\\ Moreover, this research holds paramount relevance in the contemporary technological landscape. For instance, in the case of Altilia, a company specializing in AI-driven intelligent document processing, the intelligent selection of instances for labeling during the early stages of active learning is of paramount importance given the cost associated with labeling documents. \\\\ The study seeks to answer two fundamental research questions: Can cold start techniques enhance subsequent active learning iterations? When do warm start techniques outperform their cold start counterparts? The investigation is driven by the hypothesis that while cold start techniques excel in the early stages, warm start techniques, leveraging uncertainty measures, eventually supersede them. Nevertheless, optimizing the initial sample selection holds potential for significant process enhancements. \\\\ The thesis significantly advances the domain of active learning, with a specific focus on the initial 'cold start' phase in text classification. It introduces a pioneering methodology for gauging the efficacy of cold start techniques and establishes an experimental framework for rigorous comparative analysis. Moreover, the thesis introduces three innovative cold start techniques, broadening the spectrum of available methodologies in active learning. These contributions collectively underscore the notion that substantial progress is often the result of incremental advancements.
Visalli, Francesco
Papaleo, P.
Lanza, A.
ING - Scuola di Ingegneria Industriale e dell'Informazione
9-apr-2024
2022/2023
Negli ultimi anni si è assistito aad una notevole crescita nel campo dell'Intelligenza Artificiale (IA), che permea diversi settori e ottimizza compiti per una maggiore efficienza. In questo contesto, il campo dell'Elaborazione del Linguaggio Naturale (NLP) ha attirato notevole attenzione, offrendo la promessa di automatizzare compiti che coinvolgono il linguaggio umano. Questa tesi è guidata da un profondo interesse nelle applicazioni pratiche di IA e NLP, specialmente nei contesti industriali dove i dati non etichettati sono abbondanti ma laboriosi da annotare. Lo studio si concentra sull'Apprendimento Attivo, con un enfasi particolare sulla sua fase di "partenza a freddo", una situazione comune nelle applicazioni reali dove sono disponibili poche o nessuna etichetta. L'Apprendimento Attivo, un ramo specializzato dell'apprendimento automatico, va oltre l'addestramento convenzionale selezionando i punti dati più informativi da etichettare, operando con la premessa che la selezione strategica dei dati possa portare a prestazioni superiori con meno istanze di addestramento. Questo è particolarmente vantaggioso quando esistono dati non etichettati abbondanti, ma l'etichettatura è un'attività che richiede molte risorse. Interagendo intelligentemente con un esperto umano, chiamato oracolo, un apprendista attivo acquisisce etichette vere per determinati punti dati, con l'obiettivo di ridurre al minimo gli sforzi di etichettatura senza compromettere l'efficacia dell'apprendimento. La tesi si concentra su due fasi cruciali dell'apprendimento attivo: la "partenza a freddo" e la successiva "partenza a caldo". La qualità del pool iniziale di dati etichettati, spesso definita fase di "partenza a freddo", influenza significativamente l'efficienza e l'accuratezza delle iterazioni di apprendimento successive. Tuttavia, questa fase critica rimane poco esplorata, specialmente nel contesto della classificazione del testo. Lo studio mira a colmare questa lacuna di conoscenza, concentrandosi su tecniche che possono costruire con giudizio un pool iniziale etichettato per consentire decisioni di campionamento più efficaci nelle iterazioni successive, ottimizzando infine il processo di apprendimento attivo. Inoltre, questa ricerca ha una rilevanza fondamentale nel contesto tecnologico contemporaneo. Ad esempio, nel caso di Altilia, un'azienda specializzata nell'elaborazione intelligente di documenti basata sull'IA, la selezione intelligente di istanze da etichettare durante le prime fasi dell'apprendimento attivo è di importanza primaria data la spesa associata all'etichettatura dei documenti. Lo studio cerca di rispondere a due domande di ricerca fondamentali: Le tecniche di partenza a freddo possono migliorare le iterazioni successive dell'apprendimento attivo? A che punto del processo iterativo le tecniche di partenza a caldo superano i loro corrispettivi di partenza a freddo? L'indagine è guidata dall'ipotesi che mentre le tecniche di partenza a freddo eccellono nelle fasi iniziali, le tecniche di partenza a caldo, sfruttando misure di incertezza, le superino sul "lungo termine". Tuttavia, ottimizzare la selezione iniziale del campione ha il potenziale per miglioramenti significativi del processo. La tesi di ricerca porta avanzamenti significativi nel campo dell'apprendimento attivo, con un focus specifico sulla fase iniziale di "partenza a freddo" nella classificazione del testo. La tesi introduce una metodologia pionieristica per valutare l'efficacia delle tecniche di partenza a freddo e stabilisce un quadro sperimentale per un'analisi comparativa rigorosa. Inoltre, la tesi introduce tre innovative tecniche di partenza a freddo, ampliando lo spettro delle metodologie disponibili nell'apprendimento attivo.
File allegati
File Dimensione Formato  
2024_04_Bachir Kaddis Beshay.pdf

accessibile in internet per tutti

Descrizione: Master Thesis
Dimensione 7.13 MB
Formato Adobe PDF
7.13 MB Adobe PDF Visualizza/Apri
EXECUTIVE_SUMMARY.pdf

accessibile in internet per tutti

Descrizione: Executive summary
Dimensione 826.72 kB
Formato Adobe PDF
826.72 kB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/219585