Skeleton-Based Human Activity Recognition is one of the most important areas in Computer Vision, aiming at recognizing human activities from videos by exploiting 3D skeletal data positions. It has achieved a great interest in recent years, as skeleton data has been demonstrated to be more robust to illumination changes, body scales, dynamic camera views and complex background. In particular, Spatial-Temporal Graph Convolutional Networks (ST-GCN) demonstrated to be effective in learning both spatial and temporal dependencies on non-Euclidean data such as Skeleton graphs. Nevertheless, an effective encoding of the latent information in the 3D skeleton is still an open problem, especially how to extract effective information from joint motion patterns and their correlations. In this thesis, we propose a novel Spatial-Temporal Transformer network (ST-TR) which models dependencies between joints using the Transformer architecture originally introduced for text, and it allows for an improved interpretability of network predictions. In our ST-TR model a Spatial Transformer (S-TR) is used to understand the intra-frame interactions between the different body parts, and a Temporal Transformer (T-TR) to model inter-frame correlations, then combined in two different network variants. In the first one, S-TR and T-TR are used separately and then combined in a two-stream framework. In the second one, the two are applied together, resulting in a unified Transformer architecture. For the first time, self-attention replaces convolution in a Skeleton Activity Recognition task, outperforming the ST-GCN baseline and pairing the performance of state-of-the-art models on the NTU-RGB+D dataset.

Il Riconoscimento dell'Attività Umana Basato sullo Scheletro è una delle aree più importanti in Computer Vision, mirata al riconoscimento di attività svolte da persone a partire da video, grazie all'uso delle coordinate 3D che compongono lo scheletro umano. Negli ultimi anni questo ambito ha attirato molto interesse, dal momento che i dati provenienti dalla posizione dello scheletro si sono dimostrati robusti a variazioni nella luminosità e nella scala, riprese dinamiche da videocamera e sfondi complessi. Le Spatial Temporal Graph Convolutional Networks (ST-GCN) si sono dimostrate essere particolarmente efficaci nel modellare sia le dipendenze spaziali che quelle temporali su domini non Euclidei, quali i grafi rappresentanti lo scheletro umano. Nonostante ciò, codificare in modo efficace l'informazione contenuta nelle coordinate 3D dello scheletro rimane un problema aperto, specialmente l'estrazione di informazioni rilevanti a partire dallo studio dei pattern di movimento delle giunture del corpo umano, e le correlazioni tra di esse. In questa tesi, proponiamo un nuovo modello chiamato Spatial Temporal Transformer (ST-TR), che modella le dipendenze tra le varie giunture componenti lo scheletro usando l'architettura del Transformer, originariamente introdotto per task che coinvolgono il testo, e che consente una migliore interpretabilità delle predizioni prodotte dalla rete. Nel nostro modello ST-TR, una rete chiamata Spatial Transformer (S-TR) viene usata per comprendere le interazioni tra le diverse parti del corpo umano all'interno dello stesso frame, mentre una rete chiamata Temporal Transformer (T-TR) viene usata per modellare le correlazioni tra frame diversi. I due sono stati combinati secondo due diverse modalità. Nella prima, le due reti S-TR e T-TR vengono usate separatamente, e combinate solo alla fine con un approccio a due stream. La seconda consiste nel combinare le due reti in un modello Transformer unico. Per la prima volta, la self-attention tipica del Transformer viene usata nel riconoscimento dell'attività umana da video, ottenendo prestazioni migliori del modello ST-GCN da cui siamo partiti e paragonabili allo stato dell'arte, ottenute validando i nostri modelli su il set di dati NTU-RGB+D.

Spatial temporal transformer networks for skeleton-based activity recognition

PLIZZARI, CHIARA
2018/2019

Abstract

Skeleton-Based Human Activity Recognition is one of the most important areas in Computer Vision, aiming at recognizing human activities from videos by exploiting 3D skeletal data positions. It has achieved a great interest in recent years, as skeleton data has been demonstrated to be more robust to illumination changes, body scales, dynamic camera views and complex background. In particular, Spatial-Temporal Graph Convolutional Networks (ST-GCN) demonstrated to be effective in learning both spatial and temporal dependencies on non-Euclidean data such as Skeleton graphs. Nevertheless, an effective encoding of the latent information in the 3D skeleton is still an open problem, especially how to extract effective information from joint motion patterns and their correlations. In this thesis, we propose a novel Spatial-Temporal Transformer network (ST-TR) which models dependencies between joints using the Transformer architecture originally introduced for text, and it allows for an improved interpretability of network predictions. In our ST-TR model a Spatial Transformer (S-TR) is used to understand the intra-frame interactions between the different body parts, and a Temporal Transformer (T-TR) to model inter-frame correlations, then combined in two different network variants. In the first one, S-TR and T-TR are used separately and then combined in a two-stream framework. In the second one, the two are applied together, resulting in a unified Transformer architecture. For the first time, self-attention replaces convolution in a Skeleton Activity Recognition task, outperforming the ST-GCN baseline and pairing the performance of state-of-the-art models on the NTU-RGB+D dataset.
CANNICI, MARCO
ING - Scuola di Ingegneria Industriale e dell'Informazione
29-apr-2020
2018/2019
Il Riconoscimento dell'Attività Umana Basato sullo Scheletro è una delle aree più importanti in Computer Vision, mirata al riconoscimento di attività svolte da persone a partire da video, grazie all'uso delle coordinate 3D che compongono lo scheletro umano. Negli ultimi anni questo ambito ha attirato molto interesse, dal momento che i dati provenienti dalla posizione dello scheletro si sono dimostrati robusti a variazioni nella luminosità e nella scala, riprese dinamiche da videocamera e sfondi complessi. Le Spatial Temporal Graph Convolutional Networks (ST-GCN) si sono dimostrate essere particolarmente efficaci nel modellare sia le dipendenze spaziali che quelle temporali su domini non Euclidei, quali i grafi rappresentanti lo scheletro umano. Nonostante ciò, codificare in modo efficace l'informazione contenuta nelle coordinate 3D dello scheletro rimane un problema aperto, specialmente l'estrazione di informazioni rilevanti a partire dallo studio dei pattern di movimento delle giunture del corpo umano, e le correlazioni tra di esse. In questa tesi, proponiamo un nuovo modello chiamato Spatial Temporal Transformer (ST-TR), che modella le dipendenze tra le varie giunture componenti lo scheletro usando l'architettura del Transformer, originariamente introdotto per task che coinvolgono il testo, e che consente una migliore interpretabilità delle predizioni prodotte dalla rete. Nel nostro modello ST-TR, una rete chiamata Spatial Transformer (S-TR) viene usata per comprendere le interazioni tra le diverse parti del corpo umano all'interno dello stesso frame, mentre una rete chiamata Temporal Transformer (T-TR) viene usata per modellare le correlazioni tra frame diversi. I due sono stati combinati secondo due diverse modalità. Nella prima, le due reti S-TR e T-TR vengono usate separatamente, e combinate solo alla fine con un approccio a due stream. La seconda consiste nel combinare le due reti in un modello Transformer unico. Per la prima volta, la self-attention tipica del Transformer viene usata nel riconoscimento dell'attività umana da video, ottenendo prestazioni migliori del modello ST-GCN da cui siamo partiti e paragonabili allo stato dell'arte, ottenute validando i nostri modelli su il set di dati NTU-RGB+D.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
ChiaraPlizzariThesisFinalVersion.pdf

Open Access dal 08/04/2021

Descrizione: Testo della tesi
Dimensione 12.21 MB
Formato Adobe PDF
12.21 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/164836