Robust model-based clustering for high-dimensional data via covariance matrices regularization

Robust clustering for high-dimensional data poses a significant challenge, as existing robust clustering methods suffer from the curse of dimensionality when p is large, while existing approaches for high-dimensional data are, in general, not robust. This thesis proposes a solution to that challenge, by incorporating high-dimensional covariance matrices estimators into a fast and efficient algorithm for robust constrained clustering, the TCLUST methodology, which has been extensively shown to perform well on contaminated low-dimensional data. The key idea is to exploit three different scatter matrices estimators, the Minimum Regularized Covariance Determinant estimator, the linear shrinkage estimator of Ledoit-Wolf, which is a special case of the previous one, and the sparse CovGlasso estimator, to capture the relationships and dependencies among variables in different ways, allowing the algorithm to effectively handle the complexity and variability of high-dimensional data, whilst being protected against the harmful effect of outliers. This thesis aims to provide a robust clustering solution that is applicable to real-world situations, in which it may be necessary to deal with both a large number of features and data contamination. The problem addressed in this study is the recognition of handwritten digits, which is very challenging due to the high dimensionality of the data, the limited separation between classes and the potential presence of outlying units.

La clusterizzazione robusta di dati ad alta dimensionalità rappresenta una sfida significativa, poiché i metodi esistenti di clusterizzazione robusta subiscono la curse of dimensionality quando p è grande, mentre gli approcci esistenti per dati ad alta dimensionalità non sono, generalmente, robusti. Questa tesi propone una soluzione a tale sfida, incorporando stimatori di matrici di covarianza ad alta dimensionalità in un algoritmo rapido ed efficiente per la clusterizzazione robusta, il TCLUST, che si è ampiamente dimostrato avere buone prestazioni su dati contaminati a bassa dimensionalità. L’idea chiave è sfruttare tre diversi stimatori di matrici di dispersione, il Minimum Regularized Covariance Determinant estimator, il linear shrinkage estimator di Ledoit-Wolf, che è un caso particolare del precedente, e lo sparse CovGlasso estimator, per catturare relazioni e dipendenze tra variabili in modi diversi, consentendo all’algoritmo di gestire in modo efficace la complessità e la variabilità dei dati ad alta dimensionalità, mentre resta protetto dall’effetto dannoso degli outliers. Questa tesi mira a fornire una soluzione di clusterizzazione robusta che sia applicabile a situazioni reali, in cui potrebbe essere necessario affrontare sia la questione di un elevato numero di variabili, sia quella della contaminazione dei dati. Il problema affrontato in questo studio è il riconoscimento di cifre scritte a mano, che risulta molto impegnativo a causa dell’alta dimensionalità dei dati, della limitata separazione tra le classi e della possibile presenza di outliers.