When one faces a clustering problem, typically unsupervised, it is prob- able that only a limited number of variables causes the differences between the groups. For this reason new statistical methods, denominated "sparse", are born, which, at the same time, select relevant features and classify the data. The purpose of the following work is the extension, in a functional environment, of a result, recently appeared, which defines a method of this type in case of vectorial K-means. If the data are functions, we pro- pose a method able to select Borel subsets of the domain, where the clusters distinguish the most and able to classify through a functional K-means. This is obtained thanks to the constrained maximization of a functional and the optimization is to be done over the set of possible clusters and over a set of admissible functions, responsible for feature selection. It is proven the existence and uniqueness of the solution to this problem and, under a weak strengthening of the hypotheses, the convergence in $L^2$ and [μ]−a.e. of the solution function to an object known from the problem. Then it is derived an inequality on the committed error and a numerical algorithm is deducted. Successively, this method is tested firstly on simulated cases and then on real datasets. The first real case is the dataset Growth, on the growth curves of 93 children; the analises are conducted both on aligned and misaligned curves, in order to obtain a better clusterization with respect to standard methods and some aspects already found by evolutionists are observed. Finally, after a further extension of this method to the case of vector of functions, it is used to a study, even supervised, of the geometry of the internal carotid of 65 patients.

Quando si affronta un problema di clustering, tipicamente non supervisionato, è probabile che solo un ristretto numero di variabili differenzi i gruppi. Da questa considerazione nascono metodi statistici indicati con il termine "sparse" che effettuano contemporaneamente selezione di variabili rilevanti e classificazione. Lo scopo del seguente lavoro è l'estensione, in ambito funzionale, di un risultato, recentemente apparso, che definisce un tale procedimento nel caso del K-means vettoriale. Nel caso in cui i dati siano funzioni, proponiamo un metodo per selezionare sottoinsiemi Borelliani del dominio in cui i gruppi si differenzino maggiormente ed eseguire classificazione tramite K-means funzionale. Ciò si ottiene tramite la massimizzazione vincolata di un funzionale, dove, l'ottimizzazione è effettuata sull'insieme dei gruppi possibili e su un insieme di funzioni ammissibili, responsabili della scelta di sottointervalli del dominio. Si dimostra l'esistenza e l'unicità della soluzione di tale problema e, sotto un leggero rafforzamento delle ipotesi, la convergenza in $L^2$ e q.o. di tale funzione soluzione ad un oggetto noto del problema. In seguito si ricava una disuguaglianza sull'errore commesso, confrontato con quello di metodi tradizionali e si deriva un algoritmo numerico. Successivamente, questo metodo viene utilizzato dapprima su casi simulati e infine applicato su dataset reali. Il primo caso reale è il dataset Growth sulle curve di crescita di 93 bambini; vengono analizzate le curve registrate e non, per ottenere una migliore classificazione, rispetto a metodi standard e vengono evidenziati alcuni aspetti già osservati dagli evoluzionisti. Infine, dopo aver ulteriormente esteso questo metodo al caso di vettori di funzioni, lo si utilizza per uno studio, anche supervisionato, sulla geometria delle carotidi interne di 65 pazienti.

Functional sparse K means clustering

FLORIELLO, DAVIDE
2010/2011

Abstract

When one faces a clustering problem, typically unsupervised, it is prob- able that only a limited number of variables causes the differences between the groups. For this reason new statistical methods, denominated "sparse", are born, which, at the same time, select relevant features and classify the data. The purpose of the following work is the extension, in a functional environment, of a result, recently appeared, which defines a method of this type in case of vectorial K-means. If the data are functions, we pro- pose a method able to select Borel subsets of the domain, where the clusters distinguish the most and able to classify through a functional K-means. This is obtained thanks to the constrained maximization of a functional and the optimization is to be done over the set of possible clusters and over a set of admissible functions, responsible for feature selection. It is proven the existence and uniqueness of the solution to this problem and, under a weak strengthening of the hypotheses, the convergence in $L^2$ and [μ]−a.e. of the solution function to an object known from the problem. Then it is derived an inequality on the committed error and a numerical algorithm is deducted. Successively, this method is tested firstly on simulated cases and then on real datasets. The first real case is the dataset Growth, on the growth curves of 93 children; the analises are conducted both on aligned and misaligned curves, in order to obtain a better clusterization with respect to standard methods and some aspects already found by evolutionists are observed. Finally, after a further extension of this method to the case of vector of functions, it is used to a study, even supervised, of the geometry of the internal carotid of 65 patients.
ING II - Scuola di Ingegneria dei Sistemi
20-lug-2011
2010/2011
Quando si affronta un problema di clustering, tipicamente non supervisionato, è probabile che solo un ristretto numero di variabili differenzi i gruppi. Da questa considerazione nascono metodi statistici indicati con il termine "sparse" che effettuano contemporaneamente selezione di variabili rilevanti e classificazione. Lo scopo del seguente lavoro è l'estensione, in ambito funzionale, di un risultato, recentemente apparso, che definisce un tale procedimento nel caso del K-means vettoriale. Nel caso in cui i dati siano funzioni, proponiamo un metodo per selezionare sottoinsiemi Borelliani del dominio in cui i gruppi si differenzino maggiormente ed eseguire classificazione tramite K-means funzionale. Ciò si ottiene tramite la massimizzazione vincolata di un funzionale, dove, l'ottimizzazione è effettuata sull'insieme dei gruppi possibili e su un insieme di funzioni ammissibili, responsabili della scelta di sottointervalli del dominio. Si dimostra l'esistenza e l'unicità della soluzione di tale problema e, sotto un leggero rafforzamento delle ipotesi, la convergenza in $L^2$ e q.o. di tale funzione soluzione ad un oggetto noto del problema. In seguito si ricava una disuguaglianza sull'errore commesso, confrontato con quello di metodi tradizionali e si deriva un algoritmo numerico. Successivamente, questo metodo viene utilizzato dapprima su casi simulati e infine applicato su dataset reali. Il primo caso reale è il dataset Growth sulle curve di crescita di 93 bambini; vengono analizzate le curve registrate e non, per ottenere una migliore classificazione, rispetto a metodi standard e vengono evidenziati alcuni aspetti già osservati dagli evoluzionisti. Infine, dopo aver ulteriormente esteso questo metodo al caso di vettori di funzioni, lo si utilizza per uno studio, anche supervisionato, sulla geometria delle carotidi interne di 65 pazienti.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
Tesi.pdf

accessibile in internet per tutti

Descrizione: Testo della tesi
Dimensione 10.68 MB
Formato Adobe PDF
10.68 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/20464