Emotions are the most immediate and natural form of communication among human beings. The joy of an infant smiling at their parents, the fear of a child in the dark night, the aversion to a disliked food – these are languages common to all peoples across all ages. While cultural differences might affect their expression, the truth of emotions lies in their spontaneity. To fully embrace this concept, the following work presents a neural network model that classifies emotions based on facial images, favoring a natural context. The proposed architecture relies on the latest technology in computer vision, namely the attention mechanism, which allows the model to focus on specific parts of the input to maximize the chances of correct classification. This cutting-edge technology has been explored and tested in various foundational models, leading to the development of a dual-channel solution that analyzes the image in two distinct ways: one extracting general features from the input image and the other focusing on fixed points of the face for an even more stable and precise classification. The field of facial emotion recognition is set to become increasingly significant in various domains, ranging from human-computer interaction to potential applications in video games or the development of smart cities. This work aims to pave the way for the development of modern and high-performing models.

Le emozioni sono il primo e più spontaneo veicolo di comunicazione tra esseri umani. La gioia di un neonato che sorride ai propri genitori, la paura di un bambino per il buio della notte, il disgusto di un alimento che non apprezziamo, sono linguaggi comuni a tutti i popoli in ogni tempo. Per quanto ci possano essere differenze culturali nell’esprimerle, ciò che le rende vere è la loro spontaneità. Per seguire in toto quest’ultimo punto, il seguente lavoro presenta un modello di rete neurale che, classificando in base a immagini di volti l’emozione che il soggetto prova in quell’istante, prediliga il contesto naturale. L’architettura proposta si appoggia alla più moderna tecnologia disponibile nell’ambito del computer vision, ovvero il meccanismo di attenzione; esso permette di concentrarsi su parti specifiche dell’input da utilizzare per massimizzare le probabilità di una corretta classificazione. Questa moderna tecnologia è stata esplorata e provata in numerosi modelli di base, fino ad arrivare alla realizzazione di una soluzione a due canali che permetta di analizzare l’immagine in due modi distinti: il primo andando a estrarre caratteristiche generali dell’immagine in input, il secondo concentrandosi su punti fissi del volto per una classificazione ancora più stabile e puntuale. Il campo del riconoscimento delle emozioni facciali sarà sempre più importante in vari ambiti, a partire dall’interazione uomo-computer, fino alla possibilità di utilizzarlo nei videogiochi o nella realizzazione di città intelligenti. Il seguente lavoro si propone di aprire una strada allo sviluppo di modelli moderni e prestanti.

Attention mechanism and visual transformer models for facial emotion recognition in natural settings

Da RE, GIACOMO
2022/2023

Abstract

Emotions are the most immediate and natural form of communication among human beings. The joy of an infant smiling at their parents, the fear of a child in the dark night, the aversion to a disliked food – these are languages common to all peoples across all ages. While cultural differences might affect their expression, the truth of emotions lies in their spontaneity. To fully embrace this concept, the following work presents a neural network model that classifies emotions based on facial images, favoring a natural context. The proposed architecture relies on the latest technology in computer vision, namely the attention mechanism, which allows the model to focus on specific parts of the input to maximize the chances of correct classification. This cutting-edge technology has been explored and tested in various foundational models, leading to the development of a dual-channel solution that analyzes the image in two distinct ways: one extracting general features from the input image and the other focusing on fixed points of the face for an even more stable and precise classification. The field of facial emotion recognition is set to become increasingly significant in various domains, ranging from human-computer interaction to potential applications in video games or the development of smart cities. This work aims to pave the way for the development of modern and high-performing models.
ING - Scuola di Ingegneria Industriale e dell'Informazione
19-dic-2023
2022/2023
Le emozioni sono il primo e più spontaneo veicolo di comunicazione tra esseri umani. La gioia di un neonato che sorride ai propri genitori, la paura di un bambino per il buio della notte, il disgusto di un alimento che non apprezziamo, sono linguaggi comuni a tutti i popoli in ogni tempo. Per quanto ci possano essere differenze culturali nell’esprimerle, ciò che le rende vere è la loro spontaneità. Per seguire in toto quest’ultimo punto, il seguente lavoro presenta un modello di rete neurale che, classificando in base a immagini di volti l’emozione che il soggetto prova in quell’istante, prediliga il contesto naturale. L’architettura proposta si appoggia alla più moderna tecnologia disponibile nell’ambito del computer vision, ovvero il meccanismo di attenzione; esso permette di concentrarsi su parti specifiche dell’input da utilizzare per massimizzare le probabilità di una corretta classificazione. Questa moderna tecnologia è stata esplorata e provata in numerosi modelli di base, fino ad arrivare alla realizzazione di una soluzione a due canali che permetta di analizzare l’immagine in due modi distinti: il primo andando a estrarre caratteristiche generali dell’immagine in input, il secondo concentrandosi su punti fissi del volto per una classificazione ancora più stabile e puntuale. Il campo del riconoscimento delle emozioni facciali sarà sempre più importante in vari ambiti, a partire dall’interazione uomo-computer, fino alla possibilità di utilizzarlo nei videogiochi o nella realizzazione di città intelligenti. Il seguente lavoro si propone di aprire una strada allo sviluppo di modelli moderni e prestanti.
File allegati
File Dimensione Formato  
Executive_Summary___Attention_mechanism_and_Visual_Transformer_models_for_Facial_Emotion_Recognition_in_natural_settings.pdf

solo utenti autorizzati a partire dal 26/11/2024

Dimensione 739.39 kB
Formato Adobe PDF
739.39 kB Adobe PDF   Visualizza/Apri
Thesis___Attention_mechanism_and_Visual_Transformer_models_for_Facial_Emotion_Recognition_in_natural_settings.pdf

solo utenti autorizzati a partire dal 26/11/2024

Dimensione 7.06 MB
Formato Adobe PDF
7.06 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/215750