The improvement of prediction performance of Learning methods is one of the leading topics of recent Machine Learning and Artificial Intelligence Literature. The search for innovative techniques has prompted the researchers to explore new areas and to investigate the factors that influence the prediction performance. This research addresses the second issue focusing the attention on features, method parameters, incomplete datasets and relations among features and parameters. The research target is to improve the prediction ability of the Learning methods through the search for the best subset of features and the optimal method parameters and to reduce the contribution of missing values. The former theme has been developed proposing two new methods: the Kernel Matrix Genetic Algorithm (KMGA) and the Reduction by Differences (RbD). Both methods are based on Evolutionary Algorithms and perform a simultaneous search for the features and the parameters. The KMGA is suggested for small-medium size datasets and improves the prediction performance of Support Vector Machines by means of approximated kernel matrix measures. Moreover, it allows reducing the effort of the evolutionary search. The RbD is designed for large datasets that suffer from the Curse of Dimensionality and can be used with every Learning methods. Unlike the evolutionary methods proposed in Literature, the RbD does not require a preliminary reduction of thousands of features. The latter theme has been developed for incomplete datasets proposing the missVal method. The target of the missVal is to improve the prediction of Learning methods reducing the contribution of replaced missing values in the learning phase.

Il miglioramento della capacità predittiva dei metodi di apprendimento è una delle tematiche più rilevanti della Letteratura di Machine Learning e di Artificial intelligence degli ultimi anni. La continua ricerca di tecniche innovative in grado di accrescere la capacità dei modelli ha spinto i ricercatori a proporre nuovi metodi e ad indagare i fattori che ne influenzano le prestazioni. La presente ricerca si indirizza verso la seconda tematica ed in particolare si focalizza sugli attributi che descrivono i dati, sui parametri dei modelli, sui dataset incompleti e sulle relazioni che sussistono tra gli attributi e i parametri degli stessi. Questa ricerca si pone l’obiettivo di migliorare la capacità predittiva dei modelli di apprendimento mediante la selezione di attributi e parametri e la riduzione del contributo delle osservazioni con valori mancanti durante la fase di apprendimento del modello. Il primo tema è sviluppato proponendo due nuovi metodi: il Kernel Matrix Genetic Algorithm (KMGA), studiato per dataset di piccole-medie dimensioni, e il Reduction by Differences (RbD) indicato per dataset di grandi dimensioni. Entrambi i metodi sono basati su algoritmi evolutivi ed eseguono una ricerca simultanea degli attributi del dataset e dei parametri di un modello. Il KMGA esegue la ricerca utilizzando un indicatore approssimato di bontà della matrice kernel in grado di migliorare la predizione di un classificatore di tipo Support Vector Machines e di ridurre lo sforzo computazionale dell’algoritmo evolutivo su cui è basato. Il RbD ha invece carattere più generale e può essere applicato a qualsiasi metodo di apprendimento. Il RbD è sviluppato per dataset di grandi dimensioni e, rispetto ai metodi evolutivi proposti in Letteratura, permette di eseguire la ricerca simultanea di attributi e parametri senza richiedere una riduzione preliminare di migliaia di attributi. Il secondo tema è sviluppato proponendo il metodo missVal, che è studiato per dataset incompleti in cui i valori mancanti delle osservazioni sono sostituiti da valori ad hoc. Lo scopo è quello di ridurre il contributo di quelle osservazioni durante la fase di apprendimento per migliorare la capacità predittiva.

Improving the prediction performance of Support Vector Machines

PEROLINI, ALESSANDRO

Abstract

The improvement of prediction performance of Learning methods is one of the leading topics of recent Machine Learning and Artificial Intelligence Literature. The search for innovative techniques has prompted the researchers to explore new areas and to investigate the factors that influence the prediction performance. This research addresses the second issue focusing the attention on features, method parameters, incomplete datasets and relations among features and parameters. The research target is to improve the prediction ability of the Learning methods through the search for the best subset of features and the optimal method parameters and to reduce the contribution of missing values. The former theme has been developed proposing two new methods: the Kernel Matrix Genetic Algorithm (KMGA) and the Reduction by Differences (RbD). Both methods are based on Evolutionary Algorithms and perform a simultaneous search for the features and the parameters. The KMGA is suggested for small-medium size datasets and improves the prediction performance of Support Vector Machines by means of approximated kernel matrix measures. Moreover, it allows reducing the effort of the evolutionary search. The RbD is designed for large datasets that suffer from the Curse of Dimensionality and can be used with every Learning methods. Unlike the evolutionary methods proposed in Literature, the RbD does not require a preliminary reduction of thousands of features. The latter theme has been developed for incomplete datasets proposing the missVal method. The target of the missVal is to improve the prediction of Learning methods reducing the contribution of replaced missing values in the learning phase.
CHEVALEYRE, YANN
COLOMBO, MASSIMO GAETANO
VERCELLIS, CARLO
SOLDANO, HENRY
13-mar-2012
Il miglioramento della capacità predittiva dei metodi di apprendimento è una delle tematiche più rilevanti della Letteratura di Machine Learning e di Artificial intelligence degli ultimi anni. La continua ricerca di tecniche innovative in grado di accrescere la capacità dei modelli ha spinto i ricercatori a proporre nuovi metodi e ad indagare i fattori che ne influenzano le prestazioni. La presente ricerca si indirizza verso la seconda tematica ed in particolare si focalizza sugli attributi che descrivono i dati, sui parametri dei modelli, sui dataset incompleti e sulle relazioni che sussistono tra gli attributi e i parametri degli stessi. Questa ricerca si pone l’obiettivo di migliorare la capacità predittiva dei modelli di apprendimento mediante la selezione di attributi e parametri e la riduzione del contributo delle osservazioni con valori mancanti durante la fase di apprendimento del modello. Il primo tema è sviluppato proponendo due nuovi metodi: il Kernel Matrix Genetic Algorithm (KMGA), studiato per dataset di piccole-medie dimensioni, e il Reduction by Differences (RbD) indicato per dataset di grandi dimensioni. Entrambi i metodi sono basati su algoritmi evolutivi ed eseguono una ricerca simultanea degli attributi del dataset e dei parametri di un modello. Il KMGA esegue la ricerca utilizzando un indicatore approssimato di bontà della matrice kernel in grado di migliorare la predizione di un classificatore di tipo Support Vector Machines e di ridurre lo sforzo computazionale dell’algoritmo evolutivo su cui è basato. Il RbD ha invece carattere più generale e può essere applicato a qualsiasi metodo di apprendimento. Il RbD è sviluppato per dataset di grandi dimensioni e, rispetto ai metodi evolutivi proposti in Letteratura, permette di eseguire la ricerca simultanea di attributi e parametri senza richiedere una riduzione preliminare di migliaia di attributi. Il secondo tema è sviluppato proponendo il metodo missVal, che è studiato per dataset incompleti in cui i valori mancanti delle osservazioni sono sostituiti da valori ad hoc. Lo scopo è quello di ridurre il contributo di quelle osservazioni durante la fase di apprendimento per migliorare la capacità predittiva.
Tesi di dottorato
File allegati
File Dimensione Formato  
2012_03_PhD_Perolini.pdf

non accessibile

Descrizione: Testo della tesi
Dimensione 3.89 MB
Formato Adobe PDF
3.89 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/56883