Autism Spectrum Disorder (ASD) is a condition characterized by persistent deficits in communication and social interaction, and restricted and repetitive patterns of behavior, interests, or activities. Among others, a key aspect that characterizes ASD behaviour is the lack of joint attention, often used to determine the severity level since a very young age. In fact, ASD screening is considered necessary to anticipate the diagnosis. This permits early intervention, which was proven to improve the quality of life of the autistic children and their caregivers. Moreover, continued monitoring during the therapy is necessary to assess the children's progress. Such evaluations still rely on qualitative and observational clinical scales, which suffer from being highly operator-dependent and little precise. Thus, this work aims to develop a quantitative assessment of joint attention based on gaze estimation that can help overcome the cited limitations. In order to accurately identify and differentiate the child's gaze from that of the therapist, a semi-automatic approach has been implemented leveraging two distinct gaze estimation algorithms, namely, Gaze360 and L2CS-Net, whose performances were compared. Moreover, the videos acquired during the administration of the Early Social Communication Scale to 9 ASD children and 18 neurotypical adults were manually annotated to identify the child's and therapist's target of attention. Subsequently, this annotated data was utilized to train a deep learning model capable of classifying the object of focus for either the child or the therapist. Multi-layer perceptron (MLP) models have been trained with the data of either gaze estimators. From the first trials with the healthy adult subjects' data, it has emerged that Gaze360 outperforms L2CS-Net, with an achieved F1-Macro score of 72% out of 68%. Subsequently, ASD data have been included in both training and tests, causing a reduction in performance. The best F1-Macro score obtained is 32%, achieved by fine-tuning the adults-trained model with ASD children data. To improve accuracy and overcome the challenges encountered, further deep learning models should be tested to process the information in different ways, including the images from the video-recorded evaluation assessment or taking into consideration the time-related characteristics. Expanding the dataset would also be beneficial.

Il disturbo dello spettro autistico (Autism Spectum Disorder, ASD) è una condizione caratterizzata da deficit nella comunicazione e nell'interazione sociale e da comportamenti, attività e interessi ristretti e ripetitivi. Tra gli altri, un aspetto fondamentale che caratterizza il comportamento dell'ASD è la mancanza di attenzione congiunta, spesso utilizzata per determinare il livello di gravità fin dalla più tenera età. Infatti, lo screening dell'ASD è considerato necessario per anticipare la diagnosi. Ciò consente un intervento precoce, che si è dimostrato in grado di migliorare la qualità della vita dei bambini autistici e dei loro caregiver. Inoltre, è necessario un monitoraggio continuo durante la terapia per valutare i progressi dei bambini. Tali valutazioni si basano ancora su scale cliniche qualitative e basate sull’osservazione, che soffrono di una forte dipendenza dall'operatore e di una scarsa precisione. Questo lavoro di tesi si propone, quindi, di sviluppare una valutazione quantitativa dell'attenzione congiunta basata sulla stima dello sguardo che possa aiutare a superare le limitazioni citate. Per identificare e differenziare accuratamente lo sguardo del bambino da quello del terapeuta, è stato implementato un approccio semi-automatico in due distinti algoritmi di stima dello sguardo, ovvero Gaze360 e L2CS-Net, le cui prestazioni sono state confrontate. Inoltre, i video acquisiti durante la somministrazione della Early Social Communication Scale a 9 bambini ASD e 18 adulti neurotipici sono stati annotati manualmente per identificare il target di attenzione del bambino e del terapeuta. Successivamente, questi dati annotati sono stati utilizzati per addestrare un modello di deep learning in grado di classificare l'oggetto dell'attenzione del bambino o del terapeuta. I modelli MLP (Multi-layer perceptron) sono stati addestrati con i dati di entrambi gli algoritmi di stima dello sguardo. Dalle prime prove con i dati di soggetti adulti sani, è emerso che Gaze360 supera L2CS-Net, con un punteggio F1-Macro di 72% su 68%. Successivamente, i dati ASD sono stati inclusi sia nel training che nei test, causando una riduzione delle prestazioni. Il miglior punteggio F1-Macro ottenuto è pari al 32%, ottenuto grazie al fine-tuning del modello addestrato con gli adulti e, successivamente, con i dati dei bambini ASD. Per migliorare l'accuratezza e superare le sfide incontrate, si dovrebbero testare ulteriori modelli di deep learning per elaborare le informazioni in modi diversi, includendo le immagini della videoregistrazione della valutazione o prendendo in considerazione le caratteristiche legate al tempo. Inoltre, sarebbe utile anche ampliare il set di dati.

Visual attention assessment in autism spectrum disorder: a deep learning approach for automated gaze analysis

Dussin, Alessandra
2023/2024

Abstract

Autism Spectrum Disorder (ASD) is a condition characterized by persistent deficits in communication and social interaction, and restricted and repetitive patterns of behavior, interests, or activities. Among others, a key aspect that characterizes ASD behaviour is the lack of joint attention, often used to determine the severity level since a very young age. In fact, ASD screening is considered necessary to anticipate the diagnosis. This permits early intervention, which was proven to improve the quality of life of the autistic children and their caregivers. Moreover, continued monitoring during the therapy is necessary to assess the children's progress. Such evaluations still rely on qualitative and observational clinical scales, which suffer from being highly operator-dependent and little precise. Thus, this work aims to develop a quantitative assessment of joint attention based on gaze estimation that can help overcome the cited limitations. In order to accurately identify and differentiate the child's gaze from that of the therapist, a semi-automatic approach has been implemented leveraging two distinct gaze estimation algorithms, namely, Gaze360 and L2CS-Net, whose performances were compared. Moreover, the videos acquired during the administration of the Early Social Communication Scale to 9 ASD children and 18 neurotypical adults were manually annotated to identify the child's and therapist's target of attention. Subsequently, this annotated data was utilized to train a deep learning model capable of classifying the object of focus for either the child or the therapist. Multi-layer perceptron (MLP) models have been trained with the data of either gaze estimators. From the first trials with the healthy adult subjects' data, it has emerged that Gaze360 outperforms L2CS-Net, with an achieved F1-Macro score of 72% out of 68%. Subsequently, ASD data have been included in both training and tests, causing a reduction in performance. The best F1-Macro score obtained is 32%, achieved by fine-tuning the adults-trained model with ASD children data. To improve accuracy and overcome the challenges encountered, further deep learning models should be tested to process the information in different ways, including the images from the video-recorded evaluation assessment or taking into consideration the time-related characteristics. Expanding the dataset would also be beneficial.
FASSINA, GABRIELE
SANTOS , LAURA
ING - Scuola di Ingegneria Industriale e dell'Informazione
3-apr-2025
2023/2024
Il disturbo dello spettro autistico (Autism Spectum Disorder, ASD) è una condizione caratterizzata da deficit nella comunicazione e nell'interazione sociale e da comportamenti, attività e interessi ristretti e ripetitivi. Tra gli altri, un aspetto fondamentale che caratterizza il comportamento dell'ASD è la mancanza di attenzione congiunta, spesso utilizzata per determinare il livello di gravità fin dalla più tenera età. Infatti, lo screening dell'ASD è considerato necessario per anticipare la diagnosi. Ciò consente un intervento precoce, che si è dimostrato in grado di migliorare la qualità della vita dei bambini autistici e dei loro caregiver. Inoltre, è necessario un monitoraggio continuo durante la terapia per valutare i progressi dei bambini. Tali valutazioni si basano ancora su scale cliniche qualitative e basate sull’osservazione, che soffrono di una forte dipendenza dall'operatore e di una scarsa precisione. Questo lavoro di tesi si propone, quindi, di sviluppare una valutazione quantitativa dell'attenzione congiunta basata sulla stima dello sguardo che possa aiutare a superare le limitazioni citate. Per identificare e differenziare accuratamente lo sguardo del bambino da quello del terapeuta, è stato implementato un approccio semi-automatico in due distinti algoritmi di stima dello sguardo, ovvero Gaze360 e L2CS-Net, le cui prestazioni sono state confrontate. Inoltre, i video acquisiti durante la somministrazione della Early Social Communication Scale a 9 bambini ASD e 18 adulti neurotipici sono stati annotati manualmente per identificare il target di attenzione del bambino e del terapeuta. Successivamente, questi dati annotati sono stati utilizzati per addestrare un modello di deep learning in grado di classificare l'oggetto dell'attenzione del bambino o del terapeuta. I modelli MLP (Multi-layer perceptron) sono stati addestrati con i dati di entrambi gli algoritmi di stima dello sguardo. Dalle prime prove con i dati di soggetti adulti sani, è emerso che Gaze360 supera L2CS-Net, con un punteggio F1-Macro di 72% su 68%. Successivamente, i dati ASD sono stati inclusi sia nel training che nei test, causando una riduzione delle prestazioni. Il miglior punteggio F1-Macro ottenuto è pari al 32%, ottenuto grazie al fine-tuning del modello addestrato con gli adulti e, successivamente, con i dati dei bambini ASD. Per migliorare l'accuratezza e superare le sfide incontrate, si dovrebbero testare ulteriori modelli di deep learning per elaborare le informazioni in modi diversi, includendo le immagini della videoregistrazione della valutazione o prendendo in considerazione le caratteristiche legate al tempo. Inoltre, sarebbe utile anche ampliare il set di dati.
File allegati
File Dimensione Formato  
2025_04_Dussin_ExecutiveSummary.pdf

accessibile in internet per tutti

Descrizione: Executive Summary
Dimensione 3.41 MB
Formato Adobe PDF
3.41 MB Adobe PDF Visualizza/Apri
2025_04_Dussin_Thesis.pdf

accessibile in internet per tutti

Descrizione: Article Thesis
Dimensione 10.84 MB
Formato Adobe PDF
10.84 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/235969