Active learning with constrained virtual support vector machines for classification of earth observation data

The classification of multispectral satellite imagery often suffers with limited labeled data, which is costly and time-consuming to acquire. This thesis introduces an innovative framework integrating Active Learning with Virtual Support Vector Machines, enhanced by Self-Learning and Semi-Supervised Learning, to mitigate this issue. Active Learn- ing selects the most informative unlabeled samples for annotation, minimizing labeling efforts while maximizing model performance. Self-Learning refines decision boundaries using virtual labels, while Semi-Supervised Learning enhances generalization by combin- ing labeled and unlabeled data. These strategies reduce reliance on extensive labeled datasets, improving classification efficiency. The proposed methodology leverages Active Learning to focus on high-uncertainty data points, supplemented by virtual samples gen- erated through perturbed input features. Self-learning constraints prune uninformative samples, and semi-labeled data ensures only the most valuable information contributes to training. This process significantly reduces labeling costs while maintaining or improving classification accuracy. This thesis is structured as follows: Chapter 1 introduces the prob- lem, research objectives, and scope. Chapter 2 reviews remote sensing, machine learning techniques, and relevant literature, covering Support Vector Machines, Active Learning, Self-Learning, and Semi-Supervised Learning. Chapter 3 details the experimental setup of the proposed innovations with Active Learning with resp ect to benchmark implemen- tations. Chapter 4 presents classification results from two multispectral satellite imagery datasets, highlighting performance improvements. Chapter 5 explores the implications, limitations, and future directions, including hyperparameter tuning. Chapter 6 summa- rizes contributions and potential applications in large-scale Earth Observation. By integrating Active Learning with Self-Learning and Semi-Supervised Learning in Vir- tual Support Vector Machines, this thesis presents a robust, scalable solution for remote sensing image classification, with promising implications for large-scale Earth Observation applications.

La classificazione di immagini satellitari multispettrali risente spesso della scarsità di dati etichettati, la cui acquisizione richiede tempo e risorse. Questa tesi introduce un quadro innovativo che integra l’apprendimento attivo con macchine vettoriali di supporto virtu- ali, potenziate da autoapprendimento e apprendimento semi-supervisionato, per mitigare questo problema. L’apprendimento attivo seleziona i campioni non etichettati più in- formativi per l’annotazione, minimizzando gli sforzi di etichettatura e massimizzando le prestazioni del modello. L’autoapprendimento affina i confini decisionali con etichette virtuali, mentre l’apprendimento semi-supervisionato migliora la generalizzazione combi- nando dati etichettati e non. Queste strategie riducono la dipendenza da grandi set di dati etichettati, migliorando l’efficienza della classificazione. La metodologia proposta sfrutta l’apprendimento attivo per focalizzarsi sui dati ad alta incertezza, integrati da campi- oni virtuali generati da vettori di supporto perturbati. I vincoli di autoapprendimento eliminano campioni non informativi, mentre i dati semi-etichettati garantiscono che solo le informazioni più utili contribuiscano all’addestramento. Questo processo riduce sig- nificativamente i costi di etichettatura, mantenendo o migliorando l’accuratezza della classificazione. Questa tesi è strutturata come segue: Il capitolo 1 introduce il problema, gli obiettivi e lo scopo della ricerca. Il capitolo 2 esamina il telerilevamento, le tecniche di apprendimento automatico e la letteratura pertinente, coprendo le macchine vettoriali di supporto, l’apprendimento attivo, autonomo e semi-supervisionato. Il capitolo 3 illustra le innovazioni proposte, le impostazioni dell’Apprendimento Attivo, i benchmark e la config- urazione sperimentale. Il capitolo 4 presenta i risultati della classificazione di due dataset di immagini satellitari multispettrali, evidenziando i miglioramenti delle prestazioni. Il capitolo 5 esplora implicazioni, limiti e sviluppi futuri, inclusa la regolazione degli iper- parametri. Il capitolo 6 riassume i contributi e le potenziali applicazioni nell’osservazione della Terra su larga scala. Integrando apprendimento attivo, autoapprendimento e apprendimento semi-supervisionato nelle macchine vettoriali di supporto virtuali, questa tesi propone una soluzione robusta e scalabile per la classificazione delle immagini di telerilevamento, con promettenti impli- cazioni per l’Osservazione della Terra su larga scala.