Feature Selection for Interpretable Machine Learning models

The arrival of big data from heterogeneous sources is having an enormous impact also on environmental studies, including air pollution analysis. At the same time, techniques such as Machine Learning (ML) have increasingly become standard approaches to making predictions. However, considering large and multivariate data samples, AI models could be complex to be interpreted and explained. One of the machine learning issues is that models are usually “black box” i.e systems of which output are not fully understandable by humans. It is important to interpret the prediction, especially for critical decisions such as healthcare and policy making. A way to interpret models for better reliability is to compare feature importance. Therefore, giving a hierarchy of features could be very useful to detect the most influential variables. This thesis work aims at contributing to the preprocessing phase that is performed for ML models, considering it essential before model training. The challenge of this work is to propose an approach based on the concept of finding the best potential predictive variables with feature selection. The advantage of using it is that the selected features help reduce redundancy and increase the interpretability of subsequent predictive models. In detail, this thesis presents a set of tools to preprocess data and select variables with filter, wrapper, and embedded feature selection methods. This approach has been applied in a case study of the D-DUST project, which aims to analyze the impact of intensive farming activities on air quality in the Lombardy region (Northern Italy). Some ML model predictions of air pollutants concentrations are also developed to compare the contribution to the accuracy and interpretability of the results. The experimental results obtained with different feature selection configurations are analyzed and compared with reference results available in the scientific literature.

L’arrivo dei big data da fonti diverse ha avuto un grande impatto anche negli studi ambientali, tra i quali l’analisi dell’inquinamento dell’aria. Allo stesso tempo tecniche come il Machine Learning diventano gli approcci standard per fare previsioni. Dataset numerosi e con troppe variabili possono però rendere i modelli d’intelligenza artificiale complessi e di difficile spiegazione o interpretazione. Un difetto dei modelli di Machine Learning è spesso la sua natura dell’essere una scatola chiusa (black box). La complessità della sua struttura impedisce all’essere umano di comprenderne e spiegarne appieno il funzionamento. É importante determinare le ragioni delle decisioni di un modello, specialmente in scenari rischiosi come l’assistenza medica e attività di policy-making. Un modo per interpretare i modelli è quello di confrontare l’importanza di ogni variabile identificando una gerarchia per ognuna di esse per trovare quelle più influenti. Questa tesi ha lo scopo di contribuire alla fase di preprocessing di un modello ML, considerandola essenziale prima della sua fase di training. Lo scopo di questo lavoro è di fornire un approccio per trovare le migliori variabili predittive tramite l’uso della feature selection. L’obiettivo della feature selection è quello di aiutare a ridurre la ridondanza delle variabili di analisi ed aumentare l’interpretabilità degli output dei modelli. Questa tesi presenta un insieme di strumenti per processare i dati e selezionare le variabili più influenti tramite metodi filter, wrapper e embedded di feature selection. In particolare questa tesi è stata applicata in un caso studio del progetto D-DUST che ha il fine di analizzare l’impatto che hanno le attività agricole intensive in Lombardia (Nord Italia) sulla qualità dell’aria. Alcuni modelli Machine Learning per la predizioni della concentrazione degli inquinanti sono stati implementati per comparare l’accuratezza e l’interpretabilità dei risultati. I risultati ottenuti con varie configurazioni di Feature Selection sono stati analizzati e successivamente confrontati con quelli trovati nella letteratura scientifica.