In recent years the increase in the amount of data generated and collected has posed new challenges. One of them is properly managing and analyzing high-dimensional datasets: as the number of variables of a dataset increases, the use of dimensionality reduction techniques becomes crucial to reduce the redundancy and noise of the data, while minimizing the loss of relevant information. Reducing the dimensionality allows a better visualization and interpretation of the data, as well as to improve the predictive performance of the learning algorithms. In this thesis, we propose a greedy unspervised procedure for selecting a subset of relevant variables, taking into account both the loss of information and the redundancy of the data. In particular, we focus on two aspects, (i) the predictive and (ii) the computational performances of the proposed method: the procedure should be useful in predictive contexts, that is, the reduced dataset should give acceptable predictive performances, especially if compared to those achieved by using the full dataset; moreover, the procedure should be less computationally intensive than the most popular approaches used for dimensionality reduction. Experimental results show that learning methods based on random forests are able to achieve fairly good predictive performances also by using the reduced datasets, suggesting that there is place for unsupervised selection techniques also when the task at hand is predictive. For what concerns the computational aspect, we compare the execution time of the proposed procedure and one of the most widely used dimensionality reduction technique, the SVD. The results obtained confirm that, for large datasets, the classical approaches for dimensionality reduction are computationally intensive and that using simpler unsupervised selection techniques can be of help.

Negli ultimi anni il continuo aumento della quantità di dati generati e raccolti ha portato a nuove sfide. Una di esse è la gestione e l'analisi di dati di grandi dimensioni: all'aumentare del numero di attributi di un dataset, l'utilizzo di tecniche di riduzione dimensionale diventa fondamentale per eliminare i dati irrilevanti e ridondanti, minimizzando al contempo la perdita di informazioni utili. La riduzione dimensionale permette una migliore visualizzazione e quindi interpretazione dei dati, nonché un aumento delle prestazioni predittive degli algoritmi di apprendimento. In questa tesi proponiamo una procedura greedy e unsupervised per la selezione di un sottoinsieme di attributi rilevanti, considerando sia la ridondanza dei dati che la perdita di informazione utile. In particolare, ci concentriamo su due aspetti, (i) le performance predittive e (ii) le performance computazionali: gli algoritmi di apprendimento dovrebbero avere performance predittive accettabili non solo utilizzando l'intero dataset, ma anche il dataset ridotto; inoltre, la procedura proposta deve essere meno costosa dal punto di vista computazionale rispetto ai metodi generalmente usati per la riduzione dimensionale. I risultati sperimentali mostrano che i metodi di apprendimento basati su random forest sono in grado di ottenere buone prestazioni predittive anche utilizzando i dataset ridotti dalla procedura proposta, suggerendo che tecniche unsupervised per la selezione degli attributi possono avere senso anche in contesti predittivi. Per quanto riguarda l'aspetto computazionale, i risultati ottenuti confermano che, per dataset molto grandi, i metodi normalmente utilizzati per la riduzione dimensionale diventano computazionalmente molto onerosi, e quindi semplici tecniche di selezione come quella proposta possono rivelarsi utili.

Dimensionality reduction : unsupervised feature selection applied in predictive contexts

GIORDANO, ALESSANDRO
2015/2016

Abstract

In recent years the increase in the amount of data generated and collected has posed new challenges. One of them is properly managing and analyzing high-dimensional datasets: as the number of variables of a dataset increases, the use of dimensionality reduction techniques becomes crucial to reduce the redundancy and noise of the data, while minimizing the loss of relevant information. Reducing the dimensionality allows a better visualization and interpretation of the data, as well as to improve the predictive performance of the learning algorithms. In this thesis, we propose a greedy unspervised procedure for selecting a subset of relevant variables, taking into account both the loss of information and the redundancy of the data. In particular, we focus on two aspects, (i) the predictive and (ii) the computational performances of the proposed method: the procedure should be useful in predictive contexts, that is, the reduced dataset should give acceptable predictive performances, especially if compared to those achieved by using the full dataset; moreover, the procedure should be less computationally intensive than the most popular approaches used for dimensionality reduction. Experimental results show that learning methods based on random forests are able to achieve fairly good predictive performances also by using the reduced datasets, suggesting that there is place for unsupervised selection techniques also when the task at hand is predictive. For what concerns the computational aspect, we compare the execution time of the proposed procedure and one of the most widely used dimensionality reduction technique, the SVD. The results obtained confirm that, for large datasets, the classical approaches for dimensionality reduction are computationally intensive and that using simpler unsupervised selection techniques can be of help.
RAVANELLI, PAOLO
ING - Scuola di Ingegneria Industriale e dell'Informazione
27-apr-2016
2015/2016
Negli ultimi anni il continuo aumento della quantità di dati generati e raccolti ha portato a nuove sfide. Una di esse è la gestione e l'analisi di dati di grandi dimensioni: all'aumentare del numero di attributi di un dataset, l'utilizzo di tecniche di riduzione dimensionale diventa fondamentale per eliminare i dati irrilevanti e ridondanti, minimizzando al contempo la perdita di informazioni utili. La riduzione dimensionale permette una migliore visualizzazione e quindi interpretazione dei dati, nonché un aumento delle prestazioni predittive degli algoritmi di apprendimento. In questa tesi proponiamo una procedura greedy e unsupervised per la selezione di un sottoinsieme di attributi rilevanti, considerando sia la ridondanza dei dati che la perdita di informazione utile. In particolare, ci concentriamo su due aspetti, (i) le performance predittive e (ii) le performance computazionali: gli algoritmi di apprendimento dovrebbero avere performance predittive accettabili non solo utilizzando l'intero dataset, ma anche il dataset ridotto; inoltre, la procedura proposta deve essere meno costosa dal punto di vista computazionale rispetto ai metodi generalmente usati per la riduzione dimensionale. I risultati sperimentali mostrano che i metodi di apprendimento basati su random forest sono in grado di ottenere buone prestazioni predittive anche utilizzando i dataset ridotti dalla procedura proposta, suggerendo che tecniche unsupervised per la selezione degli attributi possono avere senso anche in contesti predittivi. Per quanto riguarda l'aspetto computazionale, i risultati ottenuti confermano che, per dataset molto grandi, i metodi normalmente utilizzati per la riduzione dimensionale diventano computazionalmente molto onerosi, e quindi semplici tecniche di selezione come quella proposta possono rivelarsi utili.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
2016_04_Giordano.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Testo della tesi
Dimensione 2.53 MB
Formato Adobe PDF
2.53 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/121479