A computational model of cognitive empathy based on incremental learning and the analysis of facial micro-expressions and minimal gesture cues

In the research field of Affective Computing, the need is emerged of investigating further methods of non-invasive emotion recognition, considering multiple non-verbal information channels and the context of the interaction. To face the above perspective, the study concerning the artificial reproduction of empathy is fundamental. In this study, from the deepening of the theoretical background and the state-of-the-art, it is intended to propose a computational model of cognitive empathy based on the analysis of facial micro-expressions and minimal gesture cues for the continuous acquisition by a camera of information regarding identity, emotions and situations of subjects. The model is characterized by a decision hyperspace defined by the hyper-dimensions associated with identity, emotion and context. The hyperspace is populated by the Emotion, Target and Situation modules which perform, respectively, the supervised recognition of emotions, the simultaneous analysis of facial micro-expressions and minimal gesture cues, and the unsupervised recognition of faces and situations. The faces of the subjects are distinguished in optimal and heterogeneous light conditions with success rates, respectively, of 96% and 89%. Micro-expressions are identified with 78% accuracy and associated with the emotional classes of anger, fear, disgust, happiness, surprise, and sadness with 72% accuracy, while minimal gesture cues are identified with 97.45% and recognized with 95.18% accuracy. For the recognition of situations, the 68% of success was achieved. From the comparative analysis of the aforementioned methodologies with the recognition of macro-expressions, it appears that the solution based on the information fusion of micro-expressions and minimal gesture cues is the most reliable. From the tests performed by applying the proposed model to real cases, it is emerged that the solution of the gaps present in the current systems of artificial empathy was achieved in terms of conception, methodology and reliability in emotion recognition, providing long-term relationship capacity and outlining a first generalization of contexts.

Nel campo di ricerca dell’Affective Computing è emersa la necessità di investigare ulteriori metodi di riconoscimento emozionale non invasivo, considerando più canali di informazione non-verbale ed il contesto dell'interazione. Per studiare più a fondo la suddetta prospettiva, lo studio riguardante la riproduzione artificiale dell'empatia riveste un aspetto fondamentale. Dall’approfondimento dell’assetto teorico e dello stato dell’arte, nel presente studio, si propone un modello computazionale di empatia cognitiva basato sull’analisi di micro-espressioni facciali e segnali gestuali minimi, per l'acquisizione continuativa di informazioni riguardanti identità, emozioni e situazioni dei soggetti osservati, mediante l'utilizzo di una camera. Tale modello è caratterizzato da un iperspazio di decisione definito mediante le iper-dimensioni associate ad identità, emozione e contesto. L’iperspazio è popolato dai moduli Emotion, Target e Situation che realizzano, rispettivamente, il riconoscimento supervisionato di emozioni, mediante l'analisi simultanea di micro-espressioni e segnali gestuali minimi, e non supervisionato di volti e situazioni. I volti dei soggetti vengono distinti in condizioni ottimali ed eterogenee di luce con percentuale di successo, rispettivamente, pari al 96% ed 89%. Le micro-espressioni vengono identificate con il 78% di accuratezza ed associate alle classi emozionali di rabbia, paura, disgusto, felicità, sorpresa e tristezza con il 72%, mentre i segnali gestuali minimi vengono identificati con il 97.45% e distinti con il 95.18% di accuratezza. Per il riconoscimento delle situazioni viene raggiunto il 68% di successo. Inoltre, dall’analisi comparativa delle suddette metodologie con il riconoscimento delle macro-espressioni risulta che quella basata sull’information fusion di micro-espressioni e segnali gestuali minimi è la più affidabile. Dall'impiego della soluzione proposta ai casi reali risulta significativa la risoluzione dei gap presenti nei sistemi attuali di empatia artificiale in termini di concezione, metodologia ed affidabilità nel riconoscimento emotivo, fornendo capacità di relazione a lungo termine e delineando una prima generalizzazione dei contesti.