Human communication is based on primarily on verbal language, that is complex enough to deliver deep concepts, but alongside that, non-verbal language delivers other kinds of details, like intentional and non-intentional messages about ourselves. Thus, it is interesting to combine the growing ability to process big amount of data of nowadays machine learning algorithms with machine vision techniques aiming to investigate more this less explored communication channel. The focus of this Master's Thesis work are Micro-Gestures: fast and short in time movements of the body, mainly of the face and the hands, that are often unconscious and express people true feelings, regardless of the message people are consciously trying to communicate. For this particular type of gestures, iMiGUE is a new dataset that classifies 32 types of these Micro-Gestures. The dataset is composed of videos taken after tennis matches, and collects about 18,000 clips of Micro-Gestures. In this work, a non-traditional machine learning technique is explored, to check if it can be applied to this task and improve the classification of this Micro-Gestures, that has very subtle differences between them. Such technique is adversarial learning, that involves training neural networks also with samples that are imperceptibly modified specifically to fool the classifier. Adversarial learning is proved to be able to enhance robustness of networks by the training with these adversarial samples. The work investigates the effects of adversarial learning on two different implementations, to check whether it is a valuable tool to capture the characteristics of the Micro-Gestures.

La comunicazione umana è basata principalmente sul linguaggio verbale, che è sufficientemente complicato da permettere di trasmettere concetti profondi, ma parallelamente a esso, il linguaggio non-verbale trasmette altri tipi di dettagli, come messaggi che riguardano noi stessi intenzionali o meno. È quindi interessante unire la crescente capacità di processare grandi quantità di dati degli algoritmi di machine learning odierni con tecniche di visione artificiale puntando a indagare di più rispetto a questi canali comunicativi meno esplorati. Il punto focale di questo lavoro di Tesi sono le Micro-Gestures: rapidi e brevi movimenti del corpo, prevalentemente di faccia e mani, che sono spesso involontari ed esprimono le vere emozioni del soggetto, indipendentemente dal messaggio che sta consciamente cercando di comunicare. Per questo particolare tipo di movimenti, iMiGUE è un nuovo dataset che classifica 32 tipi di queste Micro-Gestures. Il dataset è composto da video girati dopo incontri di tennis, e raccoglie circa 18'000 clip di Micro-Gestures. In questo lavoro viene studiata una tecnica non tradizionale di machine learning, per verificare se può essere applicato a questo compito e migliorare la classificazione di queste Micro-Gestures, che hanno tra di loro differenze veramente sottili. Tale tecnica è l'adversarial learning, che prevede di allenare le reti neurali anche con dati che sono stato modificati impercettibilmente (adversarial samples), specificatamente per ingannare il classificatore. È provato che l'adversarial learning sia capace di incrementare la robustezza delle reti allenandole con questi adversarial samples. Questo lavoro investiga gli effetti dell'adversarial learning in due differenti implementazioni, per verificare se può essere un valido strumento per catturare le caratteristiche delle Micro-Gestures.

Human micro-gesture recognition by adversarial training

Gherardi, Simone
2022/2023

Abstract

Human communication is based on primarily on verbal language, that is complex enough to deliver deep concepts, but alongside that, non-verbal language delivers other kinds of details, like intentional and non-intentional messages about ourselves. Thus, it is interesting to combine the growing ability to process big amount of data of nowadays machine learning algorithms with machine vision techniques aiming to investigate more this less explored communication channel. The focus of this Master's Thesis work are Micro-Gestures: fast and short in time movements of the body, mainly of the face and the hands, that are often unconscious and express people true feelings, regardless of the message people are consciously trying to communicate. For this particular type of gestures, iMiGUE is a new dataset that classifies 32 types of these Micro-Gestures. The dataset is composed of videos taken after tennis matches, and collects about 18,000 clips of Micro-Gestures. In this work, a non-traditional machine learning technique is explored, to check if it can be applied to this task and improve the classification of this Micro-Gestures, that has very subtle differences between them. Such technique is adversarial learning, that involves training neural networks also with samples that are imperceptibly modified specifically to fool the classifier. Adversarial learning is proved to be able to enhance robustness of networks by the training with these adversarial samples. The work investigates the effects of adversarial learning on two different implementations, to check whether it is a valuable tool to capture the characteristics of the Micro-Gestures.
LIU, XIN
ING - Scuola di Ingegneria Industriale e dell'Informazione
18-lug-2023
2022/2023
La comunicazione umana è basata principalmente sul linguaggio verbale, che è sufficientemente complicato da permettere di trasmettere concetti profondi, ma parallelamente a esso, il linguaggio non-verbale trasmette altri tipi di dettagli, come messaggi che riguardano noi stessi intenzionali o meno. È quindi interessante unire la crescente capacità di processare grandi quantità di dati degli algoritmi di machine learning odierni con tecniche di visione artificiale puntando a indagare di più rispetto a questi canali comunicativi meno esplorati. Il punto focale di questo lavoro di Tesi sono le Micro-Gestures: rapidi e brevi movimenti del corpo, prevalentemente di faccia e mani, che sono spesso involontari ed esprimono le vere emozioni del soggetto, indipendentemente dal messaggio che sta consciamente cercando di comunicare. Per questo particolare tipo di movimenti, iMiGUE è un nuovo dataset che classifica 32 tipi di queste Micro-Gestures. Il dataset è composto da video girati dopo incontri di tennis, e raccoglie circa 18'000 clip di Micro-Gestures. In questo lavoro viene studiata una tecnica non tradizionale di machine learning, per verificare se può essere applicato a questo compito e migliorare la classificazione di queste Micro-Gestures, che hanno tra di loro differenze veramente sottili. Tale tecnica è l'adversarial learning, che prevede di allenare le reti neurali anche con dati che sono stato modificati impercettibilmente (adversarial samples), specificatamente per ingannare il classificatore. È provato che l'adversarial learning sia capace di incrementare la robustezza delle reti allenandole con questi adversarial samples. Questo lavoro investiga gli effetti dell'adversarial learning in due differenti implementazioni, per verificare se può essere un valido strumento per catturare le caratteristiche delle Micro-Gestures.
File allegati
File Dimensione Formato  
2023_07_Gherardi_01.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Testo della tesi
Dimensione 4.09 MB
Formato Adobe PDF
4.09 MB Adobe PDF   Visualizza/Apri
2023_07_Gherardi_02.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Sommario esecutivo
Dimensione 2.05 MB
Formato Adobe PDF
2.05 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/211960