DNA microarray datasets are characterized by a large number of features with very few samples, which is a typical cause of overfitting and poor generalization in the classification task. In this thesis we introduce a novel feature selection (FS) approach which employs the distance correlation (dCor) as a criterion for evaluating the dependence of the class on a given feature subset. The dCor index provides a reliable dependence measure among random vectors of arbitrary dimension, without any assumption on their distribution. Moreover, it is sensitive to the presence of redundant terms. The proposed FS method is based on a probabilistic representation of the feature subset model, which is progressively refined by a repeated process of model extraction and evaluation. A key element of the approach is a distributed optimization scheme based on a vertical partitioning of the dataset, which alleviates the negative effects of its unbalanced dimensions. The proposed method has been tested on several microarray datasets, resulting in quite compact and accurate models obtained at a reasonable computational cost.

I dataset di microarray di DNA sono caratterizzati da un grande numero di features e pochi campioni che sono la tipica causa di overfitting e povera generalizzazione nei processi di classificazione. In questa tesi introduciamo un nuovo metodo di features selection (FS) che utilizza l’indice di distance correlation (dCor) come criterio per valutare la dipendenza di una classe rispetto un gruppo di features dato. L’indice dCor fornisce una misura affidabile di dipendenza rispetto vettori casuali con dimensioni arbitrarie, senza nessuna assunzione sulla loro distribuzione. Inoltre, l’indice è sensibile alla presenza di termini ridondanti. Il metodo di FS proposto si basa sulla rappresentazione probabilistica del modello del sottoinsieme di features, che è progressivamente migliorato con un processo ripetitivo di estrazione del modello e valutazione. Un elemento chiave del metodo è uno schema di ottimizzazione distribuito basato sul partizionamento verticale del dataset, che riduce gli effetti negativi delle sue dimensioni sbilanciate. Il metodo proposto è stato testato su numerosi dataset di microarray, risultando in un modello compatto e accurato ottenuto con un costo computazionale ragionevole.

Feature selection for microarray classification problems

HOSSEINI, MARJAN
2017/2018

Abstract

DNA microarray datasets are characterized by a large number of features with very few samples, which is a typical cause of overfitting and poor generalization in the classification task. In this thesis we introduce a novel feature selection (FS) approach which employs the distance correlation (dCor) as a criterion for evaluating the dependence of the class on a given feature subset. The dCor index provides a reliable dependence measure among random vectors of arbitrary dimension, without any assumption on their distribution. Moreover, it is sensitive to the presence of redundant terms. The proposed FS method is based on a probabilistic representation of the feature subset model, which is progressively refined by a repeated process of model extraction and evaluation. A key element of the approach is a distributed optimization scheme based on a vertical partitioning of the dataset, which alleviates the negative effects of its unbalanced dimensions. The proposed method has been tested on several microarray datasets, resulting in quite compact and accurate models obtained at a reasonable computational cost.
BRANKOVIC, AIDA
ING - Scuola di Ingegneria Industriale e dell'Informazione
26-lug-2018
2017/2018
I dataset di microarray di DNA sono caratterizzati da un grande numero di features e pochi campioni che sono la tipica causa di overfitting e povera generalizzazione nei processi di classificazione. In questa tesi introduciamo un nuovo metodo di features selection (FS) che utilizza l’indice di distance correlation (dCor) come criterio per valutare la dipendenza di una classe rispetto un gruppo di features dato. L’indice dCor fornisce una misura affidabile di dipendenza rispetto vettori casuali con dimensioni arbitrarie, senza nessuna assunzione sulla loro distribuzione. Inoltre, l’indice è sensibile alla presenza di termini ridondanti. Il metodo di FS proposto si basa sulla rappresentazione probabilistica del modello del sottoinsieme di features, che è progressivamente migliorato con un processo ripetitivo di estrazione del modello e valutazione. Un elemento chiave del metodo è uno schema di ottimizzazione distribuito basato sul partizionamento verticale del dataset, che riduce gli effetti negativi delle sue dimensioni sbilanciate. Il metodo proposto è stato testato su numerosi dataset di microarray, risultando in un modello compatto e accurato ottenuto con un costo computazionale ragionevole.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
2018_07_Hosseini.pdf

accessibile in internet per tutti

Descrizione: Thesis text
Dimensione 1.65 MB
Formato Adobe PDF
1.65 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/142104