Interpretable machine learning for meaningful variable extraction: methods and applications to climate extreme events

Machine Learning is a core field of Artificial Intelligence, designed to extract meaningful patterns from data, with the purpose of generalizing across different environments. One of the main aspects of this field is the choice and processing of input variables. Ideally, considering a large set of available candidate variables, the designer should ponder the number of input features, considering a restricted subset of relevant variables and non-redundant ones, preserving most of the information shared with the target variable. This way, the collinearity among variables should be reduced, together with their dimensionality, mitigating issues like overfitting or the curse of dimensionality, typical of high-dimensional problems. In this context, the sub-field of feature extraction has been designed to identify a reduced set of relevant variables. This can be done through feature selection methods, aiming to identify a subset of reduced features. On the other hand, dimensionality reduction approaches can be exploited to project the entire set of features into a lower dimensional space. In the first case, some features are simply discarded, which improves the interpretability of the final results, although they may be exploited to extract more information on the target variable. On the other hand, in the second case, all features are potentially exploited at a cost of interpretability. Indeed, the obtained projected features can be linear or non-linear transformation of eventually all the original ones. In this dissertation we discuss three dimensionality reduction approaches designed to reduce the number of features, while preserving their interpretability. The main idea in this case is to aggregate subsets of variables with their mean, and we provide theoretical results and algorithms in linear, non-linear and multi-task settings. Additionally, we explore the possibility to select relevant and non-redundant variables in a causal feature selection approach based on transfer entropy. This is an asymmetric measure of the flow of information, allowing to identify causally relevant features for a target variable. Then, in the second part of this thesis we present two machine learning workflows for climate data, focusing on drought detection problems. These applications can be both considered as an empirical assessment, on challenging real world tasks, of some of the novel approaches introduced in the methodological sections, and applied results in the field of drought detection, showing enhanced performances and driving some conclusions on the effect of some meteorological variables on the state of vegetation.

Le tecniche di apprendimento automatico (Machine Learning, ML) rappresentano uno degli elementi essenziali dei metodi di intelligenza artificiale. Queste tecniche sono fondate su metodi statistici e probabilistici, e sono basate sull'idea di estrarre relazioni e interazioni fra variabili attraverso l'utilizzo di dati, con lo scopo di ottenere informazioni rilevanti ed estendibili a dati e contesti diversi. Uno degli aspetti più rilevanti per il buon funzionamento di queste tecniche è la scelta delle variabili di ingresso da considerare, e le trasformazioni ad esse applicate. Dato un insieme inizialmente esteso di possibili variabili, il loro numero dovrebbe essere ridotto, considerando soltanto quelle rilevanti e non ridondanti in base alla variabile di uscita di interesse (target). In questo modo, l'informazione indotta dalle variabili d'ingresso su quella di uscita sarebbe preservata per la maggior parte, riducendo allo stesso tempo la collinearità fra le variabili e la loro numerosità, essenziali per ridurre il rischio di sovradattamento (overfitting) e "maledizione della dimensionalità" (curse of dimensionality), due fra le problematiche più tipiche associate a queste tecniche e dovute all'alta dimensionalità. Le tecniche di estrazione delle variabili (feature extraction) sono quindi state introdotte a questo fine in ML, seguendo due principali direzioni. Da un lato, i metodi di selezione delle variabili (feature selection) sono orientati all'identificazione di un sottoinsieme dell'insieme completo di variabili d'ingresso disponibili, mentre i metodi di riduzione della dimensionalità (dimensionality reduction) considerano delle proiezioni su un insieme di dimensione ridotta, potenzialmente considerando tutte le variabili d'ingresso. Nel primo caso, alcune variabili sono semplicemente scartate, migliorando l'interpretabilità del modello e dei risultati, ma perdendo l'informazione ad esse associata. Nel secondo approccio, tutte le variabili sono potenzialmente sfruttate, tuttavia le proiezioni ottenute sono delle combinazioni lineari o non lineari di potenzialmente tutte le variabili d'ingresso. In questa dissertazione sono presentati e discussi tre metodi di riduzione della dimensionalità, ideati per ridurre il numero di variabili d'ingresso preservandone l'interpretabilità. L'idea alla base di questi approcci risiede nell'identificazione e nella conseguente aggregazione di sottoinsiemi di variabili con la loro media. Risultati teorici e relativi algoritmi verranno presentati per problemi lineari, non lineari e multitask. La possibilità di selezionare variabili rilevanti e non ridondanti verrà poi discussa attraverso la presentazione di un nuovo algoritmo di selezione causale delle variabili basato sul concetto di transfer entropy. Questa quantità rappresenta una misura del flusso di informazione, permettendo di identificare variabili d'ingresso rilevanti in senso causale per la variabile di uscita. Nella seconda parte di questa dissertazione verranno presentate due applicazioni di queste tecniche a dati climatici, considerando nello specifico due problemi di monitoraggio degli stati di siccità. Queste applicazioni hanno una doppia valenza: da un lato rappresentano una prima valutazione empirica su problemi reali complessi di alcuni dei metodi presentati precedentemente, presentando dall'altro lato risultati rilevanti nel campo del monitoraggio dello stato della vegetazione, in termini di miglioramento del rendimento dei modelli e di conoscenza delle relazioni fra le variabili considerate.