Bayesian reference model in feature selection problems

Feature selection is a well known and still open problem in both frequentist and Bayesian statistics. It can be intended as the goal of finding either “the minimal subset of features with good enough predictive performance” or “the whole subset of relevant features”, depending on the task of the analysis. In this thesis we refer to the second definition. In the first part of this work we carry out a comparison of different methods of feature selection using or not what we call a reference model on top of the procedure, that is a model that describes well our data. We measure the performance and the stability of each method using both the standard approach, that simply relies on data, and the reference model one, showing overall improved results when we look at a proper model (i.e. the reference one) instead of the observed data. We include different procedures in the comparison as a selection through high probability density posterior credibility intervals, a selection made by controlling the Q-value and the local false discovery rate. In the second part, we propose a novel algorithm to tackle the same se- lection problem that we name iterated projection, based on the projection predictive approach. We compare such method with the natural counter part approach that does not use a reference model, which we call iterated lasso. Finally, we compare these techniques using real world data. Results show again an increased stability and a better performance of the selection in favour of the reference model approach.

La selezione delle variabili in un modello statistico è un problema ben noto e ancora aperto sia in ambito frequentista che Bayesiano. Può essere inteso come l’obiettivo di individuare “il sottoinsieme minimale di variabile con sufficiente capacità predittiva” o “l’intero sottoinsieme di variabili significative”, in base all’obiettivo dell’analisi. In questa tesi ci riferiamo alla seconda definizione. Nella prima parte di questo lavoro confrontiamo diversi metodi di selezione di variabili usando o meno all’inizio della procedura quello che chiamiamo un modello di riferimento, ovvero un modello che descrive bene i dati. Misuriamo la qualità e la stabilità della selezione di ciascun metodo usando sia l’approccio standard, che utilizza i dati a disposizione, sia l’approccio del modello di riferimento, mostrando risultati migliori quando si fa riferimento a un opportuno modello (quello di riferimento) invece che ai dati osservati. Le procedure che includiamo nel confronto sono la selezione di variabili tramite intervalli di credibilità a posteriori, la sezione controllando il Q-value e controllano il local false discovery rate.  Nella seconda parte proponiamo per il medesimo problema di selezione un nuovo algoritmo che chiamiamo iterated projection, basato sull’approccio della proiezione predittiva. Compariamo tale metodo con il suo naturale corrispettivo che non usa il modello di riferimento, a cui ci riferiamo con il termine iterated lasso. Infine, confrontiamo tutti questi metodi con dati reali. I risultati mostrano ancora una maggiore stabilità e qualità della selezione in favore dell’approccio del modello di riferimento.