The rapid progress in artificial intelligence has increased the demand for high-performance agents with human-like cognitive abilities, while advancements in computer graphics and photorealism have enabled the creation of avatars that closely resemble real people. This convergence has paved the way for developing a virtual human that leverages the best graphics technologies along with advanced visual, cognitive, and memory capabilities that were once exclusive to humans. This thesis project, which has been developed in collaboration with Infinity Reply and NVIDIA, presents the design and implementation of a digital human system that inte- grates deep-learning models, advanced computer graphics and real-time data processing to emulate human-like interactions and to provide cognitive, emotional, and memory ca- pabilities. The architecture is partitioned into a front-end Unreal application displaying a visually realistic avatar, a modular back-end responsible for processing audio-visual inputs and generating context-aware responses, and a bridging component, Omniverse Audio2Face, to manage lip synchronization and facial animations. The back-end features a Main Agent that orchestrates the system, handling user requests while making context retrieval and then generates responses, complemented by specialized sub-agents handling user recognition, emotion analysis, long-term memory management, and proactive engagement. Technical evaluations and user experience assessments demon- strate the system’s robust performance in real-time re-identification, memory preservation, and interactive dialogue. While the system achieves a natural and engaging conversational experience, challenges remain in multi-user interaction management and latency reduc- tion. The work lays a foundational framework for the development of emotionally intelligent digital humans with potential applications in education, customer service, mental health, and interactive entertainment, and it outlines future research directions aimed at enhanc- ing capabilities and overall responsiveness.

Il rapido progresso dell’intelligenza artificiale ha aumentato la richiesta di agenti ad alte prestazioni dotati di capacità cognitive simili a quelle umane, mentre i progressi nella computer grafica e nel fotorealismo hanno permesso la creazione di avatar che somigliano molto a persone reali. Questa convergenza ha spianato la strada allo sviluppo di un essere umano virtuale che sfrutta le migliori tecnologie grafiche insieme a capacità visive, cognitive e mnemoniche avanzate, un tempo esclusive degli esseri umani. Questo progetto di tesi, sviluppato in collaborazione con Infinity Reply e NVIDIA, pre- senta la progettazione e l’implementazione di un sistema di human digital che integra modelli di deep learning, computer grafica avanzata ed elaborazione dei dati in tempo reale per emulare interazioni simili a quelle umane e per fornire capacità cognitive, emotive e mnemoniche. L’architettura è suddivisa in un’applicazione front-end Unreal che mostra un avatar visivamente realistico, un back-end modulare responsabile dell’elaborazione degli input audiovisivi e della generazione di risposte contestuali, e un componente di col- legamento, Omniverse Audio2Face, per gestire la sincronizzazione labiale e le animazioni facciali. Il back-end comprende un Main Agent che orchestra il sistema, gestendo le richieste degli utenti, effettuando il recupero del contesto e successivamente generando le risposte, completato da sub-agenti specializzati nella riconoscimento degli utenti, nell’analisi delle emozioni, nella gestione della memoria a lungo termine e nell’engagement proattivo. Va- lutazioni tecniche e assessamenti dell’esperienza utente dimostrano le robuste prestazioni del sistema in termini di re-identificazione in tempo reale, preservazione della memoria e dialogo interattivo. Pur raggiungendo un’esperienza conversazionale naturale e coin- volgente, permangono sfide nella gestione delle interazioni multi-utente e nella riduzione della latenza. Il lavoro costituisce un framework fondamentale per lo sviluppo di digital human dotati di intelligenza emotiva, con potenziali applicazioni in educazione, customer service, salute mentale e intrattenimento interattivo, e delinea futuri orientamenti di ricerca finalizzati al potenziamento delle capacità e della reattività complessiva.

Enhancing digital humans with advanced interaction, long-term memory and emotional awareness

PISCITELLI, LUCA
2023/2024

Abstract

The rapid progress in artificial intelligence has increased the demand for high-performance agents with human-like cognitive abilities, while advancements in computer graphics and photorealism have enabled the creation of avatars that closely resemble real people. This convergence has paved the way for developing a virtual human that leverages the best graphics technologies along with advanced visual, cognitive, and memory capabilities that were once exclusive to humans. This thesis project, which has been developed in collaboration with Infinity Reply and NVIDIA, presents the design and implementation of a digital human system that inte- grates deep-learning models, advanced computer graphics and real-time data processing to emulate human-like interactions and to provide cognitive, emotional, and memory ca- pabilities. The architecture is partitioned into a front-end Unreal application displaying a visually realistic avatar, a modular back-end responsible for processing audio-visual inputs and generating context-aware responses, and a bridging component, Omniverse Audio2Face, to manage lip synchronization and facial animations. The back-end features a Main Agent that orchestrates the system, handling user requests while making context retrieval and then generates responses, complemented by specialized sub-agents handling user recognition, emotion analysis, long-term memory management, and proactive engagement. Technical evaluations and user experience assessments demon- strate the system’s robust performance in real-time re-identification, memory preservation, and interactive dialogue. While the system achieves a natural and engaging conversational experience, challenges remain in multi-user interaction management and latency reduc- tion. The work lays a foundational framework for the development of emotionally intelligent digital humans with potential applications in education, customer service, mental health, and interactive entertainment, and it outlines future research directions aimed at enhanc- ing capabilities and overall responsiveness.
MACCAGNI, GIACOMO
TACCHELLA, CLARISSA
ING - Scuola di Ingegneria Industriale e dell'Informazione
3-apr-2025
2023/2024
Il rapido progresso dell’intelligenza artificiale ha aumentato la richiesta di agenti ad alte prestazioni dotati di capacità cognitive simili a quelle umane, mentre i progressi nella computer grafica e nel fotorealismo hanno permesso la creazione di avatar che somigliano molto a persone reali. Questa convergenza ha spianato la strada allo sviluppo di un essere umano virtuale che sfrutta le migliori tecnologie grafiche insieme a capacità visive, cognitive e mnemoniche avanzate, un tempo esclusive degli esseri umani. Questo progetto di tesi, sviluppato in collaborazione con Infinity Reply e NVIDIA, pre- senta la progettazione e l’implementazione di un sistema di human digital che integra modelli di deep learning, computer grafica avanzata ed elaborazione dei dati in tempo reale per emulare interazioni simili a quelle umane e per fornire capacità cognitive, emotive e mnemoniche. L’architettura è suddivisa in un’applicazione front-end Unreal che mostra un avatar visivamente realistico, un back-end modulare responsabile dell’elaborazione degli input audiovisivi e della generazione di risposte contestuali, e un componente di col- legamento, Omniverse Audio2Face, per gestire la sincronizzazione labiale e le animazioni facciali. Il back-end comprende un Main Agent che orchestra il sistema, gestendo le richieste degli utenti, effettuando il recupero del contesto e successivamente generando le risposte, completato da sub-agenti specializzati nella riconoscimento degli utenti, nell’analisi delle emozioni, nella gestione della memoria a lungo termine e nell’engagement proattivo. Va- lutazioni tecniche e assessamenti dell’esperienza utente dimostrano le robuste prestazioni del sistema in termini di re-identificazione in tempo reale, preservazione della memoria e dialogo interattivo. Pur raggiungendo un’esperienza conversazionale naturale e coin- volgente, permangono sfide nella gestione delle interazioni multi-utente e nella riduzione della latenza. Il lavoro costituisce un framework fondamentale per lo sviluppo di digital human dotati di intelligenza emotiva, con potenziali applicazioni in educazione, customer service, salute mentale e intrattenimento interattivo, e delinea futuri orientamenti di ricerca finalizzati al potenziamento delle capacità e della reattività complessiva.
File allegati
File Dimensione Formato  
2025_04_Piscitelli_Tesi.pdf

accessibile in internet solo dagli utenti autorizzati

Dimensione 28.16 MB
Formato Adobe PDF
28.16 MB Adobe PDF   Visualizza/Apri
2025_04_Piscitelli_Executive_Summary.pdf

accessibile in internet per tutti

Dimensione 17.38 MB
Formato Adobe PDF
17.38 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/236401