Supervised learning in presence of multiple set of noisy labels is a challenging task that is receiving increasing interest in the ever-evolving landscape of healthcare. The labelling phase is commonly entrusted to a small group of domain experts, different level of experience and subjectivity introduce possible errors that result in noisy training labels. This manuscript presents a novel density-based ensemble approach, which is constructed by combining base learners trained using a single set of noisy labels. Base learners are fitted with Gaussian Mixture Models (GMMs) and six distinct averaging strategies are proposed to combine them. Two strategies necessitate specific knowledge, either a subset of true labels is known, or the expertise levels of annotating doctors. The remaining four approaches are fully data-driven, presenting users with a spectrum of options. We justify the needs of each approach in the medical domain. A simulation study and an application on real data are presented to compare the performances and to showcase the effectiveness of our proposal.
L'apprendimento supervisionato in presenza di molteplici insiemi di etichette rumorose rappresenta una sfida impegnativa che sta suscitando un crescente interesse nel sempre mutevole panorama della medicina. La fase di etichettatura è comunemente affidata a un piccolo gruppo di esperti del settore, il cui diverso livello di esperienza e soggettività introduce possibili errori che si traducono in etichette di addestramento rumorose. Questo manoscritto presenta un innovativo modello ensemble basato sulla densità, che è costruito combinando modelli di base addestrati utilizzando un singolo insieme di etichette rumorose. I modelli di base sono addestrati utilizzando i Modelli a Mistura Gaussiana (GMM) e sono proposte sei diverse strategie per combinarli. Due strategie richiedono conoscenze specifiche, o è noto un sottoinsieme di etichette vere, o i livelli di competenza dei medici annotatori. I restanti quattro approcci sono completamente basati sui dati, offrendo agli utenti una gamma di opzioni. Giustifichiamo la necessità di ciascun approccio nel dominio medico. Viene presentato uno studio di simulazione e un'applicazione su dati reali per confrontare le performance e mostrare l'efficacia delle nostre proposte.
Density-based ensemble model to enhance classification outcomes in presence of multiple sets of noisy labels
Montani, Giulia
2022/2023
Abstract
Supervised learning in presence of multiple set of noisy labels is a challenging task that is receiving increasing interest in the ever-evolving landscape of healthcare. The labelling phase is commonly entrusted to a small group of domain experts, different level of experience and subjectivity introduce possible errors that result in noisy training labels. This manuscript presents a novel density-based ensemble approach, which is constructed by combining base learners trained using a single set of noisy labels. Base learners are fitted with Gaussian Mixture Models (GMMs) and six distinct averaging strategies are proposed to combine them. Two strategies necessitate specific knowledge, either a subset of true labels is known, or the expertise levels of annotating doctors. The remaining four approaches are fully data-driven, presenting users with a spectrum of options. We justify the needs of each approach in the medical domain. A simulation study and an application on real data are presented to compare the performances and to showcase the effectiveness of our proposal.File | Dimensione | Formato | |
---|---|---|---|
Executive_Summary_Giulia_Montani.pdf
Open Access dal 12/09/2024
Descrizione: Executive Summary
Dimensione
714.73 kB
Formato
Adobe PDF
|
714.73 kB | Adobe PDF | Visualizza/Apri |
Thesis_Giulia_Montani.pdf
Open Access dal 12/09/2024
Descrizione: Thesis
Dimensione
4.15 MB
Formato
Adobe PDF
|
4.15 MB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/209856