Multi-task feature selection for drought monitoring : a conditional mutual information approach

The issue of climate change is one of the major topics of discussion in recent years, given the ecosystem effects that threaten the future of the next generations. Rising temperatures, mainly driven by humans' growing need for resources, have increased the frequency of observations of drought periods. This phenomenon is typically associated with a lack of water and contributes to the reduction of land to grow food, with significant economic and social consequences. Several studies have been proposed in the literature to study and monitor the drought phenomenon through indices calculated from remotely sensed data. Among them, the Normalized Difference Vegetation Index (NDVI) has been widely adopted in different Machine Learning techniques for monitoring and predicting drought periods. Specifically, this thesis aims to advance the FRIDA (FRamework for Index-based Drought Analysis) framework for monitoring drought events on a larger geographical scale, by employing multivariate feature selection based on information theory concepts and the Multi-Task Learning paradigm. The proposed approach selects the most informative subset of climatological features from sub-regions that differ in geographic and demographic characteristics, but whose drought conditions might depend on correlated drivers. The different classes of learning model choices use candidate features to produce results in two different contexts: reconstructing the drought index in a regression problem and monitoring cultivable soil conditions using a classification approach. The analysis of the first regression setting shows that an autoregressive model obtains better results than models using extracted data; in the classification case, Multi-Task models demonstrate satisfactory performances considering the limitations imposed by noisy input measurements and the scarcity of samples for the training phase.

Il tema del cambiamento climatico è uno dei principali argomenti di discussione degli ultimi anni, visti gli effetti sugli ecosistemi che minacciano il futuro delle prossime generazioni. L'innalzamento delle temperature, principalmente guidato dal crescente bisogno di risorse da parte dell'uomo, ha incrementato la frequenza di periodi di siccità. Questo fenomeno è tipicamente associato alla mancanza d'acqua e contribuisce alla riduzione dei terreni per la coltivazione del cibo, con notevoli conseguenze economiche e sociali. In letteratura sono stati proposti diversi studi per studiare e monitorare il fenomeno della siccità attraverso indici calcolati da dati telerilevati. Tra questi, il Normalized Difference Vegetation Index (NDVI) è stato ampiamente adottato in diverse tecniche di Machine Learning per il monitoraggio e la previsione dei periodi di siccità. In particolare, questa tesi si propone di progredire il framework FRIDA (FRamework for Index-based Drought Analysis) per il monitoraggio degli eventi di siccità su una scala geografica più ampia, impiegando una selezione multivariata delle variabili basata sui concetti della teoria dell'informazione e sul paradigma del Multi-Task Learning. L'approccio proposto seleziona il sottoinsieme più informativo di features climatologiche da sottoregioni che differiscono per caratteristiche geografiche e demografiche, ma le cui condizioni di siccità potrebbero dipendere da fattori correlati. Le classi di modelli di apprendimento scelte utilizzano le variabili selezionate per produrre risultati in due contesti diversi: la ricostruzione dell'indice di siccità in un problema di regressione; il monitoraggio delle condizioni del suolo coltivabile utilizzando un approccio di classificazione. L'analisi del primo problema di regressione ha mostrato che un modello autoregressivo ottiene risultati migliori rispetto a quelli impiegati, che invece utilizzano esclusivamente le variabili scelte; nel caso della classificazione, i modelli Multi-Task dimostrano prestazioni soddisfacenti, considerando le limitazioni imposte dagli input rumorosi e dalla scarsità di dati per la fase di addestramento.