In this thesis, we have proposed a new methodology to recognize human activities and emotions based on RGB videos, which take advantage of the recent breakthrough made in the field of deep learning. This method uses an image classification approach to recognize human activities and emotions. We can divide this problem into two sub-problems: activity recognition, and emotion recognition. We have used the transfer learning technique for both problems. Human activity and emotion recognition gained popularity in recent years because of the wide use of digital cameras in daily life and their potential for human-computer interaction, and robotics applications. In this work, a solution is proposed requiring only the use of RGB video instead of RGB-D videos to recognize human activity and emotion. This work shows a different approach based on the conversion of RGB video data into 2D images and image classification. From a stream of RGB videos, a two-dimensional skeleton of 17 joints for each detected body part is extracted with a DNN-based human pose estimator called PoseNet. Then, skeleton data are encoded into red, green, and blue channels of an image. A different way of encoding data was studied and compared. We used different state-of-the-art deep neural network architectures to classify human activities and compared them. Based on related works, we have chosen to use image classification models: SqueezeNet, AlexNet, DenseNet, ResNet, VGG, Inception, and retrained them to perform action recognition. For all the experiments for activity recognition, the NTU RGB+D database was used. The highest accuracy was obtained with ResNet 88.19%, which outperformed all the previous works. The second part of the problem is the detection of facial expressions from RGB videos. Based on the previous study, we have used image classification techniques based on deep learning. Before doing classification, we have applied the OpenCV face detection function to recognize faces in the wild. Cropped image of the face used as an input to our retrained VGG16 emotion detection model based on deep neural network. The highest accuracy is obtained with VGG16 (85.06%) which is comparable to any other state of the art approaches.

In questa tesi, abbiamo proposto una nuova metodologia per riconoscere le attività e le emozioni umane basate sui video RGB, che sfruttano i recenti risultati nel campo dell'apprendimento profondo. Questo metodo utilizza un approccio di classificazione delle immagini per riconoscere le attività e le emozioni umane. Possiamo dividere questo problema in due sottoproblemi: riconoscimento dell'attività e riconoscimento delle emozioni. Abbiamo usato la tecnica di apprendimento per trasferimento (transfer learning) per entrambi i problemi. Il riconoscimento dell'attività umana e delle emozioni hanno guadagnato popolarità negli ultimi anni a causa dell'ampio uso delle fotocamere e del loro potenziale utilizzo per l'interazione uomo-computer e per applicazioni di robotica. In questo lavoro, viene proposta una soluzione che richiede solo l'uso di video RGB anziché video RGB-D per riconoscere l'attività umana e le emozioni. Questo lavoro si basa su diversi approcci basati sulla conversione di dati video RGB in immagini 2D e classificazione delle immagini. Da un flusso video RGB, uno scheletro bidimensionale di 17 articolazioni per ogni parte del corpo viene estratto con uno stimatore di posa umana basato su DNN chiamato PoseNet. Quindi, i dati dello scheletro vengono codificati nei canali rosso, verde e blu di un'immagine. Sono stati studiati e confrontati diversi modi di codificare i dati. Abbiamo usato diverse architetture di reti neurali profonde disponibili allo stato dell'arte per classificare le attività umane e confrontarle. Sulla base di questo studio dei lavori correlati, abbiamo scelto di considerare diversi modelli di classificazione delle immagini: SqueezeNet, AlexNet, DenseNet, ResNet, VGG, Inception e li abbiamo ri-allenati per eseguire il riconoscimento dell'azione. Per tutti i test per il riconoscimento delle attività, è stato utilizzato il database NTU RGB+D. La massima precisione si ottiene con ResNet 88.19%, che supera le prestazioni di tutti i lavori precedenti. La seconda parte del problema è il rilevamento delle espressioni facciali dai video RGB. Sulla base dello studio precedente, abbiamo utilizzato tecniche di classificazione delle immagini basate sull'apprendimento profondo. In questo lavoro, abbiamo applicato la funzione di rilevamento dei volti di OpenCV per riconoscere i volti in ambiente non strutturato e li abbiamo usati come input per il nostro modello di rilevamento delle emozioni VGG16 basato su una rete neurale profonda. La massima precisione si ottiene con VGG16 (85,06%), che è paragonabile ad altri approcci allo stato dell'arte.

Human activity and emotion recognition from RGB videos using deep learning

DEY, ARNAB
2019/2020

Abstract

In this thesis, we have proposed a new methodology to recognize human activities and emotions based on RGB videos, which take advantage of the recent breakthrough made in the field of deep learning. This method uses an image classification approach to recognize human activities and emotions. We can divide this problem into two sub-problems: activity recognition, and emotion recognition. We have used the transfer learning technique for both problems. Human activity and emotion recognition gained popularity in recent years because of the wide use of digital cameras in daily life and their potential for human-computer interaction, and robotics applications. In this work, a solution is proposed requiring only the use of RGB video instead of RGB-D videos to recognize human activity and emotion. This work shows a different approach based on the conversion of RGB video data into 2D images and image classification. From a stream of RGB videos, a two-dimensional skeleton of 17 joints for each detected body part is extracted with a DNN-based human pose estimator called PoseNet. Then, skeleton data are encoded into red, green, and blue channels of an image. A different way of encoding data was studied and compared. We used different state-of-the-art deep neural network architectures to classify human activities and compared them. Based on related works, we have chosen to use image classification models: SqueezeNet, AlexNet, DenseNet, ResNet, VGG, Inception, and retrained them to perform action recognition. For all the experiments for activity recognition, the NTU RGB+D database was used. The highest accuracy was obtained with ResNet 88.19%, which outperformed all the previous works. The second part of the problem is the detection of facial expressions from RGB videos. Based on the previous study, we have used image classification techniques based on deep learning. Before doing classification, we have applied the OpenCV face detection function to recognize faces in the wild. Cropped image of the face used as an input to our retrained VGG16 emotion detection model based on deep neural network. The highest accuracy is obtained with VGG16 (85.06%) which is comparable to any other state of the art approaches.
ING - Scuola di Ingegneria Industriale e dell'Informazione
29-apr-2020
2019/2020
In questa tesi, abbiamo proposto una nuova metodologia per riconoscere le attività e le emozioni umane basate sui video RGB, che sfruttano i recenti risultati nel campo dell'apprendimento profondo. Questo metodo utilizza un approccio di classificazione delle immagini per riconoscere le attività e le emozioni umane. Possiamo dividere questo problema in due sottoproblemi: riconoscimento dell'attività e riconoscimento delle emozioni. Abbiamo usato la tecnica di apprendimento per trasferimento (transfer learning) per entrambi i problemi. Il riconoscimento dell'attività umana e delle emozioni hanno guadagnato popolarità negli ultimi anni a causa dell'ampio uso delle fotocamere e del loro potenziale utilizzo per l'interazione uomo-computer e per applicazioni di robotica. In questo lavoro, viene proposta una soluzione che richiede solo l'uso di video RGB anziché video RGB-D per riconoscere l'attività umana e le emozioni. Questo lavoro si basa su diversi approcci basati sulla conversione di dati video RGB in immagini 2D e classificazione delle immagini. Da un flusso video RGB, uno scheletro bidimensionale di 17 articolazioni per ogni parte del corpo viene estratto con uno stimatore di posa umana basato su DNN chiamato PoseNet. Quindi, i dati dello scheletro vengono codificati nei canali rosso, verde e blu di un'immagine. Sono stati studiati e confrontati diversi modi di codificare i dati. Abbiamo usato diverse architetture di reti neurali profonde disponibili allo stato dell'arte per classificare le attività umane e confrontarle. Sulla base di questo studio dei lavori correlati, abbiamo scelto di considerare diversi modelli di classificazione delle immagini: SqueezeNet, AlexNet, DenseNet, ResNet, VGG, Inception e li abbiamo ri-allenati per eseguire il riconoscimento dell'azione. Per tutti i test per il riconoscimento delle attività, è stato utilizzato il database NTU RGB+D. La massima precisione si ottiene con ResNet 88.19%, che supera le prestazioni di tutti i lavori precedenti. La seconda parte del problema è il rilevamento delle espressioni facciali dai video RGB. Sulla base dello studio precedente, abbiamo utilizzato tecniche di classificazione delle immagini basate sull'apprendimento profondo. In questo lavoro, abbiamo applicato la funzione di rilevamento dei volti di OpenCV per riconoscere i volti in ambiente non strutturato e li abbiamo usati come input per il nostro modello di rilevamento delle emozioni VGG16 basato su una rete neurale profonda. La massima precisione si ottiene con VGG16 (85,06%), che è paragonabile ad altri approcci allo stato dell'arte.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
thesis.pdf

accessibile in internet per tutti

Descrizione: Thesis text
Dimensione 7.33 MB
Formato Adobe PDF
7.33 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/153087