Deep Learning for real-time emotion recognition from face images

Facial expression recognition (FER) is a task that is becoming ever more relevant in many fields, ranging from social robotics to healthcare. In this context, deep learning techniques have shown promising results recently. However, this problem has always been approached as any other classification task without considering the peculiarities of FER, in particular the fact that how an expression is interpreted is usually subjective and not always very clear. In this work, classical deep learning techniques (in particular convolutional neural networks) are used to confront with the task of real-time facial expression recognition (developing an application that recognizes emotions from webcam images) and the results are analyzed in order to understand if this approach takes into account the specific features of FER or how this could be accomplished. To this end, a small dataset has been created by making multiple people label the same images, in order to have annotations that do not force single classes on each image but consider the possibility of an image belonging (in different measures) to various classes at the same time. The results show that the developed classifiers do learn some particular characteristics of this task (i.e.\ difference in recognizability among the various emotions and ambiguousness of some facial expressions) and can perform better than humans when single labels are forced. It is however necessary to explore other approaches that take into account the fact that often there is not a single ground truth when talking about FER, in order to develop classifiers that actually interpret facial expressions like humans do.

Il riconoscimento di espressioni facciali (FER, dall'inglese Facial Expression Recognition) è un compito che sta diventando sempre più rilevante in molti campi, dalla social robotics alla sanità. In questo contesto, tecniche di deep learning hanno recentemente mostrato risultati promettenti. Tuttavia, questo problema è sempre stato approcciato come qualsiasi altro problema di classificazione senza considerare le peculiarità del FER, in particolare il fatto che il modo in cui un'espressione è interpretata è solitamente soggettivo e non sempre molto chiaro. In questo lavoro, delle tecniche di deep learning classiche (in particolare reti neurali convoluzionali) sono usate per affrontare il problema del riconoscimento di espressioni facciali in tempo reale (sviluppando un'apposita applicazione che riconosca le emozioni da immagini ottenute attraverso una webcam) e i risultati sono analizzati per capire se questo metodo tiene conto delle caratteristiche specifiche del FER o come questo potrebbe essere fatto. A questo fine, un piccolo dataset è stato creato facendo annotare le stesse immagini a più persone, in modo da avere annotazioni che non forzano una singola classe per ogni immagine ma considerano la possibilità che un'immagine appartenga (in misura diversa) a varie classi insieme. I risultati mostrano che i classificatori sviluppati imparano alcune caratteristiche particolari di questo compito (ovvero la differenza in riconoscibilità fra varie emozioni e l'ambiguità di alcune espressioni facciali) e possono ottenere risultati migliori degli umani quando sono usate etichette singole. È tuttavia necessario esplorare altri approcci che tengano conto del fatto che spesso non c'è una singola verità oggettiva quando si tratta di FER, in modo da sviluppare classificatori che effettivamente interpretino le espressioni facciali come farebbe un umano.