Generative Empathetic Data-Driven Conversational Agents for Mental Healthcare

Building intelligent artificial agents, able to hold conversations with humans, has been a long-running goal of artificial intelligence. In this sense, affective computing introduced the idea that, for a machine to be perceived as intelligent, it should be able to understand emotions. This idea has been expanded to include the broader concept of empathy, which is the ability to understand and share what other individuals are experiencing. Empathy is a complex phenomenon, which requires the use of both cognitive and emotional intelligence abilities, and affects both segmental (i.e., words and sentence structures) and suprasegmental (i.e., how the sentence is spoken) levels of human conversations. In this research, we focus on developing empathetic conversational agents (i.e., conversational agents capable of simulating empathy) for mental healthcare. We developed multiple agents for applications that require an empathetic approach, from plain open-domain dialogues to more complex interactions, like therapy sessions. In particular, the latter represents the final objective of our work. Embodying conversational agents, through voice or avatars, is known to make them more relatable, thus improving their perception as more human and intelligent. Therefore, apart from a simple text-based interface, we also provided modules for spoken input and output to complete our agents. In particular, trying to simulate the suprasegmental effect of empathy on speech, we augmented the agent’s vocal synthesis with a module that adapts its speaking style depending on the conversation status. Given the latest results in Natural Language Processing brought by deep learning-based solutions, we decided to design our agents focusing on such data-driven solutions. We developed multiple empathetic dialogue agents using different learning paradigms, like reinforcement and curriculum learning, and different models, like latent hierarchical and prompt-based models. Some of such agents are capable of conditioned text generation on aspects like dialogue acts and emotions, as well as recognition of these same aspects, helping explain and understand the output they produce. We evaluated our agents using both human and automatic approaches, obtaining promising results. Given the observed outcomes and the latest developments in NLP yield by (deep learning-based) large language models, we expect that scaling up the underlying dialogue model complexity would improve significantly the agents’ capabilities. Finally, we deployed a demo agent for therapy, on an instant messaging application. This last deployment step allowed us to investigate whether it could give users easy access to these conversational agents without the need for complex web application pipelines.

Costruire agenti artificiali intelligenti, in grado di conversare con gli esseri umani, è stato un obiettivo a lungo perseguito dall'intelligenza artificiale. In questo senso, l'affective computing ha introdotto l'idea che, per essere percepita come intelligente, una macchina dovrebbe essere in grado di comprendere le emozioni. Questa idea è stata ampliata fino a includere il concetto più ampio di empatia, ovvero la capacità di comprendere e condividere ciò che gli altri individui stanno vivendo. L'empatia è un fenomeno complesso, che richiede l'uso di abilità di intelligenza sia cognitiva che emotiva e che riguarda sia i livelli segmentali (cioè le parole e le strutture delle frasi) che soprasegmentali (cioè il modo in cui la frase viene pronunciata) delle conversazioni umane. In questa ricerca ci siamo concentrati sullo sviluppo di agenti conversazionali empatici (cioè capaci di simulare l'empatia) per la salute mentale. Abbiamo sviluppato diversi agenti per applicazioni che richiedono un approccio empatico, da semplici dialoghi a dominio aperto a interazioni più complesse, come le sedute di terapia. In particolare, quest'ultima rappresenta l'obiettivo finale del nostro lavoro. È noto che incarnare agenti conversazionali, attraverso la voce o gli avatar, li rende più relazionabili, migliorando così la loro percezione come più umani e intelligenti. Pertanto, oltre a una semplice interfaccia testuale, abbiamo previsto anche moduli per l'input e l'output vocale per completare i nostri agenti. In particolare, cercando di simulare l'effetto soprasegmentale dell'empatia sul parlato, abbiamo aumentato la sintesi vocale dell'agente con un modulo che adatta il suo modo di parlare a seconda dello stato della conversazione. Visti gli ultimi risultati ottenuti nell'elaborazione del linguaggio naturale grazie a soluzioni basate sul deep learning, abbiamo deciso di progettare i nostri agenti concentrandoci su queste soluzioni basate sui dati. Abbiamo sviluppato più agenti di dialogo empatico utilizzando diversi paradigmi di apprendimento, come il rinforzo e l'apprendimento curriculare, e diversi modelli, come i modelli gerarchici latenti e quelli basati sui prompt. Alcuni di questi agenti sono in grado di generare testo condizionato su aspetti come gli atti di dialogo e le emozioni, nonché di riconoscere questi stessi aspetti, aiutando a spiegare e a comprendere l'output che producono. Abbiamo valutato i nostri agenti utilizzando approcci umani e automatici, ottenendo risultati promettenti. Visti i risultati osservati e gli ultimi sviluppi nel campo della PNL grazie ai modelli linguistici di grandi dimensioni (basati sul deep learning), ci aspettiamo che l'aumento della complessità del modello di dialogo sottostante migliori significativamente le capacità degli agenti. Infine, abbiamo distribuito un agente demo per la terapia, su un'applicazione di messaggistica istantanea. Quest'ultima fase di distribuzione ci ha permesso di verificare se gli utenti possono accedere facilmente a questi agenti conversazionali senza dover ricorrere a complesse pipeline di applicazioni web.