This thesis describes an innovative extension of morphological operators to three dimensional images represented by voxels. These morphological operators are applied to the analysis and classification of a database of human actions in a predefined vocabulary of gestures. The database is composed by the volumetric reconstructions of sequences of poses performed by one actor in a scene captured with a multi-Kinect system developed in our laboratory (ISPG). We span the entire pipeline from calibration, capturing process, preprocessing and volume reconstruction, till topological skeleton extraction, surface representation and classification. The first part of our research is dedicated to the extraction of volumetric information starting from the acquisition system implemented. The use of a 3D reconstruction technique, prior to any analysis or recognition routine, allows the recognition system to work directly on 3D data. Problems like viewpoint dependencies and motion ambiguities are inherently solved. We show how the knowledge of the underlying depth map together with a visual snapshot of the scene can greatly improve the robustness of points matching in wide-baseline contexts with respect to the state of the art descriptors. Frame-by-frame 3D representations of the scene in terms of voxels have been the input data for any other successive analysis and processing. We extend the morphological skeleton extraction algorithm to 3D and we develop a new 3D thinning algorithm for the computation of an approximation of the topological curve skeleton. Our algorithm provides good results, preserves topology, is easy to implement and shows noise robustness. We consider two application scenarios within the context of human-computer interaction: Surface Reconstruction and Human Action Recognition. The proposed morphological skeleton extraction algorithm provides a method to reconstruct the actor body surface that is accurate and computationally inexpensive. Moreover, working with morphological operators, no resolution requirements are imposed. The developed 3D thinning algorithm highlights the movement incrementing the similarity between sequences representing the same action, even if performed by actors with different gender or different body structure. Extending the descriptor used to find robust stereo-correspondences, we build motion features that are invariant respect to the actor position and orientation in the scene. The classification shows good results and the improvements using our thinning algorithm are demonstrated by the classification rate.

Questa tesi descrive un'estensione innovativa degli operatori morfologici ad immagini tridimensionali rappresentate da voxel. Questi operatori morfologici vengono applicati all'analisi e alla classificazione di un database di azioni umane in un vocabolario predefinito di gesti. Il database è costituito dalle ricostruzioni volumetriche di sequenze di pose eseguite da un attore, in una scena catturata con un sistema multi-Kinect sviluppato nel nostro laboratorio (ISPG). E’ stato implementato l’intero sistema: dalla calibrazione, l’acquisizione, la pre-elaborazione e la ricostruzione del volume, fino alla estrazione scheletro topologico, la rappresentazione della superficie e la classificazione. La prima parte della nostra ricerca è dedicata alla estrazione dei dati volumetrici a partire dal sistema di acquisizione. L'implementazione di una tecnica di ricostruzione 3D, prima di qualsiasi analisi o routine di riconoscimento, consente al sistema di lavorare direttamente sui dati 3D. Problemi come dipendenze dal punto di vista e ambiguità di movimento sono intrinsecamente risolti. Si mostra come la conoscenza della mappa di profondità insieme alla corrispondente immagine a colori della scena possa migliorare notevolmente la robustezza delle stereo-corrispondenze stimate con acquisizioni ad ampia baseline. Le rappresentazioni in termini di voxel della scena acquisita, fotogramma per fotogramma, sono i dati di ingresso per qualsiasi altra analisi ed elaborazione successiva. Abbiamo esteso l’algoritmo morfologico di estrazione dello scheletro al 3D e abbiamo sviluppato un nuovo algoritmo di thinning 3D per il calcolo di un’approssimazione dello scheletro topologico curvilineo. Il nostro algoritmo fornisce buoni risultati, conserva la stessa struttura topologica, è facile da implementare e mostra robustezza al rumore. Abbiamo considerato due scenari applicativi nel contesto interazione uomo-computer: ricostruzione superficiale e riconoscimento dell’azione compiuta dall’attore. L’algoritmo morfologico di estrazione dello scheletro proposto fornisce un metodo per ricostruire la superficie del corpo dell'attore che è accurato e poco oneroso computazionalmente. Inoltre, lavorando con operatori morfologici, nessun requisito in termini di risoluzione è imposto. L'algoritmo di thinning 3D sviluppato evidenzia il movimento, incrementando la somiglianza tra sequenze che rappresentano la stessa azione, anche se eseguite da attori di diverso genere o corporatura. Estendendo il descrittore utilizzato per trovare stereo-corrispondenze robuste, abbiamo costruito descrittori di movimento invarianti rispetto alla posizione dell’attore e al suo orientamento nella scena. La classificazione ha dato ottimi risultati e i miglioramenti derivanti dall’utilizzo dell’algoritmo di thinning 3D proposto sono dimostrati dalla percentuale di classificazioni corrette.

Analysis and classification of human actions with a multi-kinect system

FRIGERIO, ELIANA

Abstract

This thesis describes an innovative extension of morphological operators to three dimensional images represented by voxels. These morphological operators are applied to the analysis and classification of a database of human actions in a predefined vocabulary of gestures. The database is composed by the volumetric reconstructions of sequences of poses performed by one actor in a scene captured with a multi-Kinect system developed in our laboratory (ISPG). We span the entire pipeline from calibration, capturing process, preprocessing and volume reconstruction, till topological skeleton extraction, surface representation and classification. The first part of our research is dedicated to the extraction of volumetric information starting from the acquisition system implemented. The use of a 3D reconstruction technique, prior to any analysis or recognition routine, allows the recognition system to work directly on 3D data. Problems like viewpoint dependencies and motion ambiguities are inherently solved. We show how the knowledge of the underlying depth map together with a visual snapshot of the scene can greatly improve the robustness of points matching in wide-baseline contexts with respect to the state of the art descriptors. Frame-by-frame 3D representations of the scene in terms of voxels have been the input data for any other successive analysis and processing. We extend the morphological skeleton extraction algorithm to 3D and we develop a new 3D thinning algorithm for the computation of an approximation of the topological curve skeleton. Our algorithm provides good results, preserves topology, is easy to implement and shows noise robustness. We consider two application scenarios within the context of human-computer interaction: Surface Reconstruction and Human Action Recognition. The proposed morphological skeleton extraction algorithm provides a method to reconstruct the actor body surface that is accurate and computationally inexpensive. Moreover, working with morphological operators, no resolution requirements are imposed. The developed 3D thinning algorithm highlights the movement incrementing the similarity between sequences representing the same action, even if performed by actors with different gender or different body structure. Extending the descriptor used to find robust stereo-correspondences, we build motion features that are invariant respect to the actor position and orientation in the scene. The classification shows good results and the improvements using our thinning algorithm are demonstrated by the classification rate.
FIORINI, CARLO ETTORE
MONTI GUARNIERI, ANDREA
27-mar-2013
Questa tesi descrive un'estensione innovativa degli operatori morfologici ad immagini tridimensionali rappresentate da voxel. Questi operatori morfologici vengono applicati all'analisi e alla classificazione di un database di azioni umane in un vocabolario predefinito di gesti. Il database è costituito dalle ricostruzioni volumetriche di sequenze di pose eseguite da un attore, in una scena catturata con un sistema multi-Kinect sviluppato nel nostro laboratorio (ISPG). E’ stato implementato l’intero sistema: dalla calibrazione, l’acquisizione, la pre-elaborazione e la ricostruzione del volume, fino alla estrazione scheletro topologico, la rappresentazione della superficie e la classificazione. La prima parte della nostra ricerca è dedicata alla estrazione dei dati volumetrici a partire dal sistema di acquisizione. L'implementazione di una tecnica di ricostruzione 3D, prima di qualsiasi analisi o routine di riconoscimento, consente al sistema di lavorare direttamente sui dati 3D. Problemi come dipendenze dal punto di vista e ambiguità di movimento sono intrinsecamente risolti. Si mostra come la conoscenza della mappa di profondità insieme alla corrispondente immagine a colori della scena possa migliorare notevolmente la robustezza delle stereo-corrispondenze stimate con acquisizioni ad ampia baseline. Le rappresentazioni in termini di voxel della scena acquisita, fotogramma per fotogramma, sono i dati di ingresso per qualsiasi altra analisi ed elaborazione successiva. Abbiamo esteso l’algoritmo morfologico di estrazione dello scheletro al 3D e abbiamo sviluppato un nuovo algoritmo di thinning 3D per il calcolo di un’approssimazione dello scheletro topologico curvilineo. Il nostro algoritmo fornisce buoni risultati, conserva la stessa struttura topologica, è facile da implementare e mostra robustezza al rumore. Abbiamo considerato due scenari applicativi nel contesto interazione uomo-computer: ricostruzione superficiale e riconoscimento dell’azione compiuta dall’attore. L’algoritmo morfologico di estrazione dello scheletro proposto fornisce un metodo per ricostruire la superficie del corpo dell'attore che è accurato e poco oneroso computazionalmente. Inoltre, lavorando con operatori morfologici, nessun requisito in termini di risoluzione è imposto. L'algoritmo di thinning 3D sviluppato evidenzia il movimento, incrementando la somiglianza tra sequenze che rappresentano la stessa azione, anche se eseguite da attori di diverso genere o corporatura. Estendendo il descrittore utilizzato per trovare stereo-corrispondenze robuste, abbiamo costruito descrittori di movimento invarianti rispetto alla posizione dell’attore e al suo orientamento nella scena. La classificazione ha dato ottimi risultati e i miglioramenti derivanti dall’utilizzo dell’algoritmo di thinning 3D proposto sono dimostrati dalla percentuale di classificazioni corrette.
Tesi di dottorato
File allegati
File Dimensione Formato  
2013_03_PhD_Frigerio.pdf

accessibile in internet per tutti

Descrizione: Testo della tesi
Dimensione 21.75 MB
Formato Adobe PDF
21.75 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/74326