Emotion recognition from video using transfer learning and stacking

Human beings express emotions through different types of modalities. Analysing these different modalities helps to create a system in which the emotional state is expressed more clearly and hence easier to understand. Exploring the focus to various expression channels can fasten research on emotion recognition in ad- dition to human-machine interaction. In this paper, we propose a multi-channel hybrid fusion architecture which classifiers an emotion expression into one of the most common categories: anger, disgust, fear, happiness, neutral, sadness, and surprise. The proposed video (audio-visual) emotion recognition method has ex- perimented on the different labels of human emotions from both audio and video datasets. The classification is done into two phases. first, audio and visual clas- sifiers are trained separately on audio data and visual data respectively. In the second phase, audio and video features are combined to train another final classi- fier based on stacking generalization technique. Audio data are transformed into a spectrogram and the spectrogram is given to a VGGsih, a CNN pre-trained model, as a base model for feature extraction. Similarly, visual features we are computed from a sequence of frames representing each video clip. Visual features are extracted using CNN based pre-trained model called VGG16. After the base classifiers for each of the channels are trained separately, they are used as feature extractors for another fused final classifier. The second last layer output values of the base classifiers are fused together to train the stacked classifier, which is a final classification predictor. The performance of the experimented stacked audio- visual classifier results with an overall accuracy of 87%, which is more comparable than to the recognition by humans.

Gli esseri umani esprimono emozioni attraverso diversi tipi di modalità. L'analisi di queste diverse modalità aiuta a creare un sistema in cui lo stato emotivo è espresso in modo più chiaro e quindi più facile da capire. L'esplorazione dell'attenzione verso vari canali di espressione può accelerare la ricerca sul riconoscimento delle emozioni in aggiunta all'interazione uomo-macchina. In questo articolo, proponiamo un'architettura di fusione ibrida multicanale che classifica un'espressione emozionale in una delle categorie più comuni: rabbia, disgusto, paura, felicità, neutralità, tristezza e sorpresa. Il metodo di riconoscimento delle emozioni video (audiovisivo) proposto è stato sperimentato sulle diverse etichette delle emozioni umane da entrambi i set di dati audio e video. La classificazione è suddivisa in due fasi. in primo luogo, i classificatori audio e visivi sono formati separatamente su dati audio e dati visivi rispettivamente. Nella seconda fase, le funzioni audio e video vengono combinate per formare un altro classificatore finale basato sulla tecnica di generalizzazione dello stacking. I dati audio vengono trasformati in uno spettrogramma e lo spettrogramma viene dato a un VGGsih, un modello pre-addestrato della CNN, come modello di base per l'estrazione delle caratteristiche. Allo stesso modo, le funzionalità visive vengono calcolate da una sequenza di fotogrammi che rappresentano ogni clip video. Le funzionalità visive vengono estratte utilizzando il modello pre-addestrato basato sulla CNN chiamato VGG16. Dopo che i classificatori di base per ciascuno dei canali sono stati addestrati separatamente, vengono utilizzati come estrattori di funzionalità per un altro classificatore finale fuso. I valori di output del secondo ultimo strato dei classificatori di base vengono fusi insieme per formare il classificatore in pila, che è un predittore di classificazione finale. Le prestazioni del classificatore audiovisivo impilato sperimentato si traducono in un'accuratezza complessiva dell'87%, che è più comparabile rispetto al riconoscimento da parte dell'uomo.