Active learning (AL) is a machine learning technique that selects the most informative samples from a large pool of unlabeled data for annotation, thus reducing the labeling cost and improving the learning performance. However, conventional AL approaches often neglect the intricate issue of class imbalance, where certain classes are either overrepresented or underrepresented in the dataset distribution. This disparity can introduce bias in sampling and compromise the overall generalization ability of the classifier. In this work, we introduce a novel threshold-based strategy for AL designed to navigate the challenges of class imbalance. This strategy dynamically adjusts to the degree of class imbalance, ensuring the selection of samples that are both informative and well-representative of minority classes. Our approach is rigorously tested on a variety of imbalanced datasets and benchmarked against state-of-the-art AL methods. Empirical results demonstrate that our proposed method significantly enhances classifier performance, especially in scenarios characterized by imbalanced class labels.

L'Active Learning (AL) è una tecnica di machine learning che seleziona i campioni più informativi da un grande insieme di dati non etichettati per l'annotazione, riducendo così il costo dell'etichettatura e migliorando le prestazioni dell'apprendimento. Tuttavia, gli approcci convenzionali all'AL spesso trascurano il delicato problema dello squilibrio di classe, dove certe classi sono sovrarappresentate o sottorappresentate nella distribuzione del dataset. Questa disparità può introdurre un bias nella selezione dei campioni e compromettere la capacità di generalizzazione del classificatore. In questo lavoro, introduciamo una nuova strategia basata su una soglia per l'AL progettata per affrontare le sfide dello squilibrio di classe. Questa strategia si adatta dinamicamente al grado di squilibrio di classe, garantendo la selezione di campioni che sono sia informativi che ben rappresentativi delle classi minoritarie. Il nostro approccio è rigorosamente testato su una varietà di set di dati sbilanciati e paragonato ai metodi AL più avanzati. I risultati empirici dimostrano che il nostro metodo proposto migliora significativamente le prestazioni del classificatore, specialmente in scenari caratterizzati da etichette di classe sbilanciate.

Advancements in Active Learning: Strategies for Imbalanced Class Settings

BOLOGNESI, FRANCESCO
2022/2023

Abstract

Active learning (AL) is a machine learning technique that selects the most informative samples from a large pool of unlabeled data for annotation, thus reducing the labeling cost and improving the learning performance. However, conventional AL approaches often neglect the intricate issue of class imbalance, where certain classes are either overrepresented or underrepresented in the dataset distribution. This disparity can introduce bias in sampling and compromise the overall generalization ability of the classifier. In this work, we introduce a novel threshold-based strategy for AL designed to navigate the challenges of class imbalance. This strategy dynamically adjusts to the degree of class imbalance, ensuring the selection of samples that are both informative and well-representative of minority classes. Our approach is rigorously tested on a variety of imbalanced datasets and benchmarked against state-of-the-art AL methods. Empirical results demonstrate that our proposed method significantly enhances classifier performance, especially in scenarios characterized by imbalanced class labels.
ING - Scuola di Ingegneria Industriale e dell'Informazione
5-ott-2023
2022/2023
L'Active Learning (AL) è una tecnica di machine learning che seleziona i campioni più informativi da un grande insieme di dati non etichettati per l'annotazione, riducendo così il costo dell'etichettatura e migliorando le prestazioni dell'apprendimento. Tuttavia, gli approcci convenzionali all'AL spesso trascurano il delicato problema dello squilibrio di classe, dove certe classi sono sovrarappresentate o sottorappresentate nella distribuzione del dataset. Questa disparità può introdurre un bias nella selezione dei campioni e compromettere la capacità di generalizzazione del classificatore. In questo lavoro, introduciamo una nuova strategia basata su una soglia per l'AL progettata per affrontare le sfide dello squilibrio di classe. Questa strategia si adatta dinamicamente al grado di squilibrio di classe, garantendo la selezione di campioni che sono sia informativi che ben rappresentativi delle classi minoritarie. Il nostro approccio è rigorosamente testato su una varietà di set di dati sbilanciati e paragonato ai metodi AL più avanzati. I risultati empirici dimostrano che il nostro metodo proposto migliora significativamente le prestazioni del classificatore, specialmente in scenari caratterizzati da etichette di classe sbilanciate.
File allegati
File Dimensione Formato  
Tesi_finale_.pdf

accessibile in internet per tutti

Dimensione 2.38 MB
Formato Adobe PDF
2.38 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/211169