Interpretable supervised learning for functional data: penalizations and decision trees for classification and regression

The objective of this work is the development of supervised learning methods for classification and regression problems with functional input data, with a focus on prediction error and interpretability of the results. We consider two classes of methods: penalized linear models and decision trees. In particular, we introduce two novel penalization approaches based on the nonzero-centered ridge penalty, where the coefficient function is shrunk towards a data driven target. Regarding the first one, the overall shape of this adaptive target can be specified by the user as a sum of simpler shape templates like a rectangle, where the position and the number of templates is optimized with respect to the data. The second one instead, starts from the ridge solution as the initial target, and jointly optimizes the coefficient function together with a multiplicative weight function on the target itself, with an additional roughness penalty on such weight function, in order to adaptively recover sparsity and/or smoothness. For decision trees, we extend the standard CART algorithm in order to deal with functional inputs, by first learning multiple weight functions inside each node of the tree, and then extracting different weighted features in order to select the splitting threshold. All methods are tested on multiple real world case studies.

L'obiettivo di questa tesi e' lo sviluppo di metodi di apprendimento supervisionato per problemi di classificazione e regressione con dati funzionali in ingresso, concentrandosi sul potere predittivo e sull'interpretabilita' dei metodi stessi. Si considerano due classi di metodi: modelli lineari con penalita' ed alberi di decisione. In particolare, si introducono due nuovi approcci di penalizzazione basati sulla penalita' ridge non centrata nello zero, dove la funzione coefficiente e' spinta verso un centro adattivo che dipende dai dati. Nel primo approccio proposto, la forma generica del centro della penalita' viene specificata dall'utente come una somma di forme di base semplici, ad esempio dei rettangoli, dove la posizione ed il numero di queste forme di base viene poi ottimizzato rispetto ai dati. Nel secondo approccio proposto, il centro della penalita' e' inizialmente scelto come la soluzione di un problema di tipo ridge, tale centro viene pero' moltiplicato per una funzione peso che viene ottimizzata congiuntamente alla funzione coefficiente, mentre la funzione peso viene a sua volta controllata tramite una penalita' di tipo roughness, con lo scopo di ottenere una soluzione sparsa e/o liscia. Per quanto riguarda gli alberi di decisione, si estende l'algoritmo CART a problemi con dati funzionali in ingresso, introducendo una funzione peso in ogni nodo dell'albero, che si apprende dai dati e viene utilizzata per estrarre delle features pesate, ai fini del calcolo della soglia di split. Tutti i metodi sono stati testati in molteplici casi di studio reali.