This thesis work has a two-fold structure. In the rst part we apply recently developed, but consolidated, techniques of functional data analysis to a problem that has been studied since the late 1950s: development of an automated system for animal bers classi cation, through feature extraction from electron microscope images. Our contribution was in facing this well-known issue thanks to functional principal component analysis, performed on radii of the bers as functions of the curvilinear abscissa (dataset FIBER). Scores variables obtained in this way have a similar meaning to the modules of the Fourier transform of radii. We compare the performance of discriminant analysis carried out on scores and on other features (mean radius and standard deviation, modules of Fourier transform and their logarithms), varying the number of groups taken into consideration. In the second part we face the problem of metric selection in the functional data analysis framework. We consider the possibility of getting a data-driven sparse Sobolev metric, that gives nonzero weights to the most statistically signi cant derivatives and zero to the others. The procedure is a innovative extension of multivariate techniques for feature selection and penalized matrix decomposition. Some corrections are required, due to the not homogeneous nature of data; we make two proposal in this sense, responding to measure unit and normalization needs. The output is a dissimilarity matrix, that enables unsupervised classi cation. We run hierarchical clustering on two synthetic datasets and on FIBER data.

Questo lavoro di tesi ha una doppia struttura. Nella prima parte applichiamo tecniche sviluppate di recente, ma ormai consolidate, a erenti all'analisi di dati funzionali a una questione che stata studiata n dagli anni Cinquanta: lo sviluppo di un sistema automatico per la classi cazione di bre animali, tramite l'estrazione di variabili signi cative da immagini al microscopio elettronico. Il nostro contributo e stato a rontare tale problema grazie all'analisi delle componenti principali funzionali, e ettuata sui raggi delle bre, guardati come funzioni dell'ascissa curvilinea (dataset FIBER). Le variabili di scores ottenute in questo modo hanno un signi cato analogo ai moduli della trasformata di Fourier dei raggi. Andiamo a confrontare la performance dell'analisi discriminate e ettuata sugli scores e su altre variabili (raggi medi e deviazioni standard, moduli della trasformata di Fourier e loro logaritmi), variando il numero di gruppi presi in considerazione. Nella seconda parte a rontiamo il problema della selezione della metrica nel contesto dell'analisi dei dati funzionali. Consideriamo la possibilit a di ottenere una metrica di Sobolev sparsa e adattiva, che dia pesi non nulli alle derivate statisticamente signi cative e nulli alle altre. La procedura e un'estensione innovativa di tecniche multivariate per la selezione di variabili e la decomposizione di matrici con vincoli di penalit a. Si rendono necessarie alcune correzioni, a causa della natura non omogenea dei dati; facciamo due proposte in tale direzione, per rispondere a esigenze relative a di erenze nell'unit a di misura e a esigenze di normalizzazione. L'output e una matrice di dissimilarit a, che rende possibile la classi cazione non supervisionata delle funzioni. In particolare e ettuiamo il clustering gerarchico su due dataset sintetici e sui dati FIBER.

Data driven Sobolev metrics for functional data analysis : an application to natural fibers

RIABIZ, MARINA
2012/2013

Abstract

This thesis work has a two-fold structure. In the rst part we apply recently developed, but consolidated, techniques of functional data analysis to a problem that has been studied since the late 1950s: development of an automated system for animal bers classi cation, through feature extraction from electron microscope images. Our contribution was in facing this well-known issue thanks to functional principal component analysis, performed on radii of the bers as functions of the curvilinear abscissa (dataset FIBER). Scores variables obtained in this way have a similar meaning to the modules of the Fourier transform of radii. We compare the performance of discriminant analysis carried out on scores and on other features (mean radius and standard deviation, modules of Fourier transform and their logarithms), varying the number of groups taken into consideration. In the second part we face the problem of metric selection in the functional data analysis framework. We consider the possibility of getting a data-driven sparse Sobolev metric, that gives nonzero weights to the most statistically signi cant derivatives and zero to the others. The procedure is a innovative extension of multivariate techniques for feature selection and penalized matrix decomposition. Some corrections are required, due to the not homogeneous nature of data; we make two proposal in this sense, responding to measure unit and normalization needs. The output is a dissimilarity matrix, that enables unsupervised classi cation. We run hierarchical clustering on two synthetic datasets and on FIBER data.
COMPAGNONI, MARCO
ING - Scuola di Ingegneria Industriale e dell'Informazione
23-lug-2013
2012/2013
Questo lavoro di tesi ha una doppia struttura. Nella prima parte applichiamo tecniche sviluppate di recente, ma ormai consolidate, a erenti all'analisi di dati funzionali a una questione che stata studiata n dagli anni Cinquanta: lo sviluppo di un sistema automatico per la classi cazione di bre animali, tramite l'estrazione di variabili signi cative da immagini al microscopio elettronico. Il nostro contributo e stato a rontare tale problema grazie all'analisi delle componenti principali funzionali, e ettuata sui raggi delle bre, guardati come funzioni dell'ascissa curvilinea (dataset FIBER). Le variabili di scores ottenute in questo modo hanno un signi cato analogo ai moduli della trasformata di Fourier dei raggi. Andiamo a confrontare la performance dell'analisi discriminate e ettuata sugli scores e su altre variabili (raggi medi e deviazioni standard, moduli della trasformata di Fourier e loro logaritmi), variando il numero di gruppi presi in considerazione. Nella seconda parte a rontiamo il problema della selezione della metrica nel contesto dell'analisi dei dati funzionali. Consideriamo la possibilit a di ottenere una metrica di Sobolev sparsa e adattiva, che dia pesi non nulli alle derivate statisticamente signi cative e nulli alle altre. La procedura e un'estensione innovativa di tecniche multivariate per la selezione di variabili e la decomposizione di matrici con vincoli di penalit a. Si rendono necessarie alcune correzioni, a causa della natura non omogenea dei dati; facciamo due proposte in tale direzione, per rispondere a esigenze relative a di erenze nell'unit a di misura e a esigenze di normalizzazione. L'output e una matrice di dissimilarit a, che rende possibile la classi cazione non supervisionata delle funzioni. In particolare e ettuiamo il clustering gerarchico su due dataset sintetici e sui dati FIBER.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
2013_07_Riabiz.pdf

accessibile in internet per tutti

Descrizione: Testo della Tesi
Dimensione 50.12 MB
Formato Adobe PDF
50.12 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/81083