Eye contact plays a critical role in nonverbal communication, yet existing AI-driven eye contact detection models are largely trained on neurotypical populations and may fail in inclusive settings. This thesis investigates the limitations of current state-of-the-art eye- contact detection systems, developed for the Multimedia Eye Contact Detection Chal- lenge, when applied to group conversations involving individuals with intellectual and de- velopmental disabilities (IDD). First, we introduce the MIDD dataset, a novel, carefully annotated collection of multi-party interactions with IDD participants designed to mir- ror established benchmarks while capturing atypical gaze and engagement patterns. We then perform a in-depth comparative analysis between MIDD and neurotypical datasets, revealing distinct differences in class imbalance, speaking activity, gaze distribution, and interaction dynamics. Next, we evaluate several classifiers, from support vector machines to the FSFNet deep model, both in their original configurations and after fine-tuning on MIDD, quantifying gains and persistent shortcomings in performance. Finally, we discuss data-driven strategies for adapting AI systems to neurodiverse groups and highlight the importance of multimodal features (gaze, head pose, speaker identity) for more unbiased, human-centered interaction tools.

Il contatto visivo svolge un ruolo fondamentale nella comunicazione non verbale, eppure i modelli di rilevazione del contatto visivo basati su IA sono per lo più addestrati su popolazioni neurotipiche e possono fallire in contesti inclusivi. Questa tesi indaga i limiti dei sistemi di rilevazione del contatto visivo all’avanguardia, sviluppati per la Multimedia Eye Contact Detection Challenge, quando applicati a conversazioni di gruppo con persone con disabilità intellettive e dello sviluppo (IDD). In primo luogo, presentiamo il dataset MIDD, una nuova raccolta accuratamente annotata di interazioni multi-partecipanti con soggetti IDD, progettata per rispecchiare i benchmark esistenti pur catturando schemi atipici di sguardo e partecipazione. Successivamente, eseguiamo un’analisi comparativa approfondita tra MIDD e dataset neurotipici, rivelando differenze marcate in termini di sbilanciamento delle classi, attività di parlato, distribuzione degli sguardi e dinamiche interazionali. In seguito, valutiamo diversi classificatori, dalle Support Vector Machine al modello deep FSFNet, sia nelle loro configurazioni originali sia dopo fine-tuning su MIDD, quantificando miglioramenti e problematiche ancora presenti nelle prestazioni. Infine, discutiamo strategie basate sui dati per adattare i sistemi IA a gruppi neurodiversi e sottolineiamo l’importanza dell’integrazione di feature multimodali (sguardo, pose della testa, identità del parlante) per strumenti di interazione più equi e incentrati sull’utente.

A study of eye contact patterns in inclusive group conversations: dataset, analysis and modeling

HUANG, GIULIA
2024/2025

Abstract

Eye contact plays a critical role in nonverbal communication, yet existing AI-driven eye contact detection models are largely trained on neurotypical populations and may fail in inclusive settings. This thesis investigates the limitations of current state-of-the-art eye- contact detection systems, developed for the Multimedia Eye Contact Detection Chal- lenge, when applied to group conversations involving individuals with intellectual and de- velopmental disabilities (IDD). First, we introduce the MIDD dataset, a novel, carefully annotated collection of multi-party interactions with IDD participants designed to mir- ror established benchmarks while capturing atypical gaze and engagement patterns. We then perform a in-depth comparative analysis between MIDD and neurotypical datasets, revealing distinct differences in class imbalance, speaking activity, gaze distribution, and interaction dynamics. Next, we evaluate several classifiers, from support vector machines to the FSFNet deep model, both in their original configurations and after fine-tuning on MIDD, quantifying gains and persistent shortcomings in performance. Finally, we discuss data-driven strategies for adapting AI systems to neurodiverse groups and highlight the importance of multimodal features (gaze, head pose, speaker identity) for more unbiased, human-centered interaction tools.
SPITALE, MICOL
ING - Scuola di Ingegneria Industriale e dell'Informazione
22-lug-2025
2024/2025
Il contatto visivo svolge un ruolo fondamentale nella comunicazione non verbale, eppure i modelli di rilevazione del contatto visivo basati su IA sono per lo più addestrati su popolazioni neurotipiche e possono fallire in contesti inclusivi. Questa tesi indaga i limiti dei sistemi di rilevazione del contatto visivo all’avanguardia, sviluppati per la Multimedia Eye Contact Detection Challenge, quando applicati a conversazioni di gruppo con persone con disabilità intellettive e dello sviluppo (IDD). In primo luogo, presentiamo il dataset MIDD, una nuova raccolta accuratamente annotata di interazioni multi-partecipanti con soggetti IDD, progettata per rispecchiare i benchmark esistenti pur catturando schemi atipici di sguardo e partecipazione. Successivamente, eseguiamo un’analisi comparativa approfondita tra MIDD e dataset neurotipici, rivelando differenze marcate in termini di sbilanciamento delle classi, attività di parlato, distribuzione degli sguardi e dinamiche interazionali. In seguito, valutiamo diversi classificatori, dalle Support Vector Machine al modello deep FSFNet, sia nelle loro configurazioni originali sia dopo fine-tuning su MIDD, quantificando miglioramenti e problematiche ancora presenti nelle prestazioni. Infine, discutiamo strategie basate sui dati per adattare i sistemi IA a gruppi neurodiversi e sottolineiamo l’importanza dell’integrazione di feature multimodali (sguardo, pose della testa, identità del parlante) per strumenti di interazione più equi e incentrati sull’utente.
File allegati
File Dimensione Formato  
2025_07_Huang_Executive_Summary_02.pdf

accessibile in internet per tutti

Dimensione 2.11 MB
Formato Adobe PDF
2.11 MB Adobe PDF Visualizza/Apri
2025_07_Huang_Tesi_01.pdf

accessibile in internet per tutti

Dimensione 20 MB
Formato Adobe PDF
20 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/240950