Exploring confidence measures in transformer-based text classification

This work investigates intrinsic confidence measures derived from BERT to evaluate their effectiveness in detecting misclassifications during fine-tuning. We focused first on BERT’s output activations and compared discriminative and non-discriminative fine-tuning approaches across three diverse datasets selected to vary in size, class number and task complexity. Our experiments revealed that discriminative fine-tuning not only fails to improve the model's ability to distinguish correct from incorrect predictions by their activations, but sometimes degrades it. In contrast, non- discriminative methods outperformed discriminative ones on simpler datasets, though they struggled to learn the classification task itself on more challenging data. These limitations motivated an investigation into the geometric properties of embeddings as an alternative confidence signal. We proposed a measure based on the cosine similarity between a sample's embedding and its class centroid and analysed its trajectory through BERT's layers. While this geometric approach offered a more robust confidence estimate for high-precision scenarios on well-learned tasks, its efficacy proved highly sensitive to dataset difficulty and hyperparameters. Furthermore, the trajectory of embeddings through the network's layers did not yield additional, exploitable information for confidence estimation. Overall, our findings suggest that both standard activation-based measures and geometry-based alternatives have inherent limitations for reliable, general-purpose confidence estimation. The performance of any measure is contingent on the specific dataset, training objective, and operational constraints, showing the significant challenge of deriving robust intrinsic confidence signals from transformer models and highlighting the need for context-aware evaluation.

Questo lavoro studia possibili misure di confidenza intrinseche derivate da BERT per valutarne l'efficacia nell'individuare errori di classificazione durante il fine-tuning. Ci siamo concentrati inizialmente sulle attivazioni in output di BERT e abbiamo confrontato approcci di fine-tuning discriminativi e non discriminativi su tre dataset diversificati, selezionati per variare in dimensioni, numero di classi e complessità del task. I nostri esperimenti hanno rivelato che il fine-tuning discriminativo non solo non migliora la capacità del modello di distinguere le previsioni corrette da quelle errate attraverso le loro attivazioni, ma a volte la degrada. Al contrario, i metodi non discriminativi hanno superato quelli discriminativi sui dataset più semplici, sebbene abbiano faticato ad apprendere il task di classificazione stesso su dati più complessi. Queste limitazioni hanno motivato un'indagine sulle proprietà geometriche degli embedding come segnale di confidenza alternativo. Abbiamo proposto una misura basata sulla similarità del coseno tra l'embedding di un campione e il centroide della sua classe e ne abbiamo analizzato la traiettoria attraverso gli strati di BERT. Sebbene questo approccio geometrico abbia offerto una stima di confidenza più robusta per scenari ad alta precisione su task appresi efficacemente, la sua efficacia si è rivelata altamente sensibile alla difficoltà del dataset e agli iperparametri. Inoltre, la traiettoria degli embedding attraverso gli strati della rete non ha prodotto informazioni aggiuntive sfruttabili per la stima della confidenza. Nel complesso, i nostri risultati suggeriscono che sia le misure standard basate sulle attivazioni che le alternative geometriche presentano limitazioni intrinseche per una stima della confidenza affidabile e generica. Le performance di tutte le misure sono contingenti al dataset specifico, all'obiettivo di addestramento e agli iperparametri; emergono dunque la sfida significativa di derivare segnali di confidenza intrinseci robusti da modelli transformer e la necessità di una valutazione contestuale.