Emotion-aware conversational agents are software that can recognize users’ emotions while providing them access to information and services through written or spoken natural language. Such agents have been explored in different contexts, from empathetic call center applications to in-car stress monitoring board systems. Still, they have been scarcely employed to support the interventions for people with Neuro-Developmental Disorder (NDD), despite regular conversational agents have been recently identified as a potentially beneficial means to support the therapy of this population. NDD is a group of conditions with onset in the developmental period and characterized by severe deficits in the cognitive, motor, and communication areas. People with NDD often show impaired awareness of their and others’ emotions and struggle to manifest and describe their feelings, typical conditions described under the name of alexithymia. So far, only a few studies have explored the use of conversational agents to address alexithymia in the NDD population, and just some of them were empowered with the capability to recognize users’ emotions. This thesis explores the potential of emotion-aware conversational agents to promote the ability to express emotions using the voice in people with NDD. We addressed some open challenges in conversational technology and speech emotion recognition by answering the following research questions: (i) Can conversational agents with speech emotion recognition skills help people with NDD improve their emotion expression skills? (ii) Does emotional speech bias speech recognition? (iii) What can be done to push forward the state of the art in speech emotion recognition in a language with limited linguistic resources such as Italian? First, we systematically reviewed the literature on conversational agents for people with NDD and performed some empirical studies to explore the challenges and benefits of adopting such technologies during the therapy. The findings of these studies seems to indicate that users with NDD generally (i) find it difficult to be understood by conversational agents due to speech impairments and (ii) have difficulties to comply with their schematic communicative protocol which typically involves the use of an operation to trigger the agent at every conversational step (wake action). Still, (iii) the use of a conversational agent empowered with emotion recognition capabilities has the potential to improve social and communication skills (e.g., emotion expression capabilities) of people with NDD. Our results highlighted the importance of managing emotions for conversational agents for NDD. Therefore, we continued our research entering the field of emotional speech processing. First, we assessed the transcription performance of some state-of-the-art services for speech-to-text on three speech emotional corpora in Italian, German, and English. We found out that emotional voice may negatively affect automatic speech recognition performance. This result pinpointed the need for further linguistic resources and deeper investigations on speech emotion recognition systems. Moving in this direction, we created a crowdsourced speech emotional corpus, namely Emozionalmente, to support speech processing research in Italian. This corpus consists of 6902 audio clips by 431 non-professional actors while verbalizing 18 sentences expressing anger, disgust, fear, joy, sadness, surprise, and neutrality. Finally, Emozionalmente was exploited to run a number of experiments in speech emotion recognition. Such experiments highlighted that the transformer-based deep learning model that we fine-tuned on Emozionalmente obtained an accuracy comparable to humans. Consequently, such model might be integrated into conversational agents and exploited in applications for supporting people with NDD, such as Emoty. Overall, the findings of this Ph.D. research inform interaction designers and developers about some critical aspects to consider during the design process of emotion-aware conversational agents, both for persons with NDD and the neuro-typical population. Also, this work might pave the way for future research improving the understanding of the cognitive, social, and emotional mechanisms associated with NDD and new forms of therapeutic interventions for these subjects.

Quando si parla di agenti conversazionali emotion-aware si intendono quei software in grado di interagire in linguaggio naturale con gli esseri umani e di riconoscere le loro emozioni. Sistemi di questo tipo sono stati testati già in diversi contesti applicativi, dal call center empatico fino al sistema di monitoraggio dello stress durante la guida. Tuttavia, il loro potenziale è ancora da scoprire in alcuni settori specifici. Per esempio, ad oggi, gli agenti conversazionali emotion-aware sono stati appena esplorati come sostegno alle persone con disturbi del neurosviluppo, nonostante gli agenti tradizionali siano stati identificati come un mezzo potenzialmente benefico per questa popolazione. I disturbi del neurosviluppo (NDD) comprendono un ampio spettro di disturbi con esordio nei primi anni di vita e sono caratterizzati da una gamma di deficit nelle abilità comunicative e sociali, nell’apprendimento, nel controllo delle funzioni esecutive e a livello intellettivo. Le persone con NDD mostrano spesso un’alterata consapevolezza delle emozioni proprie e altrui e hanno difficoltà a manifestare e descrivere i loro stati di animo, condizioni tipicamente descritte col nome di alessitimia. In letteratura, solo pochi studi hanno approfondito l’uso di agenti conversazionali per occuparsi di alessitimia tra i soggetti con NDD e raramente l’hanno fatto impiegando agenti conversazionali capaci di riconoscere le emozioni degli utenti. Questo lavoro di tesi approfondisce il ruolo degli agenti conversazionali emotion-aware per promuovere la capacità delle persone con NDD di esprimere le emozioni tramite la voce. In particolare, abbiamo affrontato alcune questioni irrisolte nel campo della tecnologia conversazionale e del riconoscimento delle emozioni vocali rispondendo alle seguenti domande di ricerca: (i) Gli agenti conversazionali con capacità di riconoscimento delle emozioni dal parlato possono aiutare le persone con NDD a migliorare la loro espressivit`a emotiva? (ii) La presenza delle emozioni nel parlato impatta il riconoscimento delle parole? (iii) Come si può far avanzare lo stato dell’arte nel riconoscimento delle emozioni in una lingua con risorse linguistiche limitate come l’italiano? In primo luogo, abbiamo esaminato in modo sistematico la letteratura sugli agenti conversazionali per le persone con NDD e abbiamo condotto due studi empirici per valutare i vantaggi e gli svantaggi dell’adozione di tali tecnologie durante la terapia. I risultati di questi esperimenti sembrerebbero indicare che gli utenti con NDD generalmente (i) faticano ad essere capiti dagli agenti conversazionali a causa dei loro disturbi del linguaggio e (ii) stentano a rispettare il protocollo comunicativo imposto da molti agenti che prevede l’esecuzione di un’operazione preliminare da parte degli utenti al fine di attivare il riconoscimento vocale ad ogni scambio della conversazione (wake action). Ciononostante, (iii) l’uso di un agente di conversazione emotion-aware si `e rivelato in grado di migliorare le abilit`a sociali e di comunicazione delle persone con NDD (ad esempio, le capacità di espressione delle emozioni). Considerati i risultati emersi dai nostri studi riguardo l’importanza della capacità di gestire le emozioni da parte degli agenti conversazionali per NDD, abbiamo esteso la nostra ricerca al campo dell’analisi del parlato emotivo. Abbiamo valutato le prestazioni di alcuni servizi di trascrizione automatizzata su audio neutrali ed emotivi in italiano, tedesco e inglese. Abbiamo scoperto che il parlato emotivo incide negativamente sulle prestazioni del riconoscimento automatico delle parole. Questo esito ha messo in luce la necessità di ulteriori risorse linguistiche e di indagini più approfondite sui sistemi di riconoscimento delle emozioni nel parlato. In risposta a questa necessità, abbiamo creato un dataset emotivo ottenuto tramite crowd-sourcing e lo abbiamo chiamato Emozionalmente. Emozionalmente contiene 6902 audio registrati da 431 attori non professionisti mentre verbalizzavano 18 frasi esprimendo rabbia, disgusto, paura, gioia, tristezza, sorpresa e neutralit`a. Proprio a partire dagli audio di Emozionalmente, abbiamo eseguito una serie di analisi sul riconoscimento delle emozioni nel parlato. Questi esperimenti hanno dimostrato che un modello di deep learning basato sui transformers per cui abbiamo effettuato il fine-tuning su Emozionalmente ha raggiunto un’accuratezza nel riconoscimento delle emozioni paragonabile a quella degli esseri umani. Pertanto, tale modello potrebbe essere integrato negli agenti conversazionali e sfruttato per applicazioni di supporto a persone con NDD, come Emoty. Nel complesso, i risultati di questa ricerca di dottorato informano gli interaction designer e gli sviluppatori circa alcuni aspetti cruciali della progettazione di agenti conversazionali emotion-aware, sia che vengano utilizzati per persone con NDD che per la popolazione neurotipica. Inoltre, questo lavoro dà il via a una serie di ricerche future con l’intento di migliorare la comprensione dei meccanismi cognitivi, sociali ed emotivi associati ai disturbi del neurosviluppo e a nuove forme di interventi terapeutici per questi soggetti.

Designing and engineering emotion-aware conversational agents to support persons with neuro-developmental disorders

Catania, Fabio
2021/2022

Abstract

Emotion-aware conversational agents are software that can recognize users’ emotions while providing them access to information and services through written or spoken natural language. Such agents have been explored in different contexts, from empathetic call center applications to in-car stress monitoring board systems. Still, they have been scarcely employed to support the interventions for people with Neuro-Developmental Disorder (NDD), despite regular conversational agents have been recently identified as a potentially beneficial means to support the therapy of this population. NDD is a group of conditions with onset in the developmental period and characterized by severe deficits in the cognitive, motor, and communication areas. People with NDD often show impaired awareness of their and others’ emotions and struggle to manifest and describe their feelings, typical conditions described under the name of alexithymia. So far, only a few studies have explored the use of conversational agents to address alexithymia in the NDD population, and just some of them were empowered with the capability to recognize users’ emotions. This thesis explores the potential of emotion-aware conversational agents to promote the ability to express emotions using the voice in people with NDD. We addressed some open challenges in conversational technology and speech emotion recognition by answering the following research questions: (i) Can conversational agents with speech emotion recognition skills help people with NDD improve their emotion expression skills? (ii) Does emotional speech bias speech recognition? (iii) What can be done to push forward the state of the art in speech emotion recognition in a language with limited linguistic resources such as Italian? First, we systematically reviewed the literature on conversational agents for people with NDD and performed some empirical studies to explore the challenges and benefits of adopting such technologies during the therapy. The findings of these studies seems to indicate that users with NDD generally (i) find it difficult to be understood by conversational agents due to speech impairments and (ii) have difficulties to comply with their schematic communicative protocol which typically involves the use of an operation to trigger the agent at every conversational step (wake action). Still, (iii) the use of a conversational agent empowered with emotion recognition capabilities has the potential to improve social and communication skills (e.g., emotion expression capabilities) of people with NDD. Our results highlighted the importance of managing emotions for conversational agents for NDD. Therefore, we continued our research entering the field of emotional speech processing. First, we assessed the transcription performance of some state-of-the-art services for speech-to-text on three speech emotional corpora in Italian, German, and English. We found out that emotional voice may negatively affect automatic speech recognition performance. This result pinpointed the need for further linguistic resources and deeper investigations on speech emotion recognition systems. Moving in this direction, we created a crowdsourced speech emotional corpus, namely Emozionalmente, to support speech processing research in Italian. This corpus consists of 6902 audio clips by 431 non-professional actors while verbalizing 18 sentences expressing anger, disgust, fear, joy, sadness, surprise, and neutrality. Finally, Emozionalmente was exploited to run a number of experiments in speech emotion recognition. Such experiments highlighted that the transformer-based deep learning model that we fine-tuned on Emozionalmente obtained an accuracy comparable to humans. Consequently, such model might be integrated into conversational agents and exploited in applications for supporting people with NDD, such as Emoty. Overall, the findings of this Ph.D. research inform interaction designers and developers about some critical aspects to consider during the design process of emotion-aware conversational agents, both for persons with NDD and the neuro-typical population. Also, this work might pave the way for future research improving the understanding of the cognitive, social, and emotional mechanisms associated with NDD and new forms of therapeutic interventions for these subjects.
PERNICI, BARBARA
TANCA, LETIZIA
14-apr-2022
Designing and engineering emotion-aware conversational agents to support persons with neuro-developmental disorders
Quando si parla di agenti conversazionali emotion-aware si intendono quei software in grado di interagire in linguaggio naturale con gli esseri umani e di riconoscere le loro emozioni. Sistemi di questo tipo sono stati testati già in diversi contesti applicativi, dal call center empatico fino al sistema di monitoraggio dello stress durante la guida. Tuttavia, il loro potenziale è ancora da scoprire in alcuni settori specifici. Per esempio, ad oggi, gli agenti conversazionali emotion-aware sono stati appena esplorati come sostegno alle persone con disturbi del neurosviluppo, nonostante gli agenti tradizionali siano stati identificati come un mezzo potenzialmente benefico per questa popolazione. I disturbi del neurosviluppo (NDD) comprendono un ampio spettro di disturbi con esordio nei primi anni di vita e sono caratterizzati da una gamma di deficit nelle abilità comunicative e sociali, nell’apprendimento, nel controllo delle funzioni esecutive e a livello intellettivo. Le persone con NDD mostrano spesso un’alterata consapevolezza delle emozioni proprie e altrui e hanno difficoltà a manifestare e descrivere i loro stati di animo, condizioni tipicamente descritte col nome di alessitimia. In letteratura, solo pochi studi hanno approfondito l’uso di agenti conversazionali per occuparsi di alessitimia tra i soggetti con NDD e raramente l’hanno fatto impiegando agenti conversazionali capaci di riconoscere le emozioni degli utenti. Questo lavoro di tesi approfondisce il ruolo degli agenti conversazionali emotion-aware per promuovere la capacità delle persone con NDD di esprimere le emozioni tramite la voce. In particolare, abbiamo affrontato alcune questioni irrisolte nel campo della tecnologia conversazionale e del riconoscimento delle emozioni vocali rispondendo alle seguenti domande di ricerca: (i) Gli agenti conversazionali con capacità di riconoscimento delle emozioni dal parlato possono aiutare le persone con NDD a migliorare la loro espressivit`a emotiva? (ii) La presenza delle emozioni nel parlato impatta il riconoscimento delle parole? (iii) Come si può far avanzare lo stato dell’arte nel riconoscimento delle emozioni in una lingua con risorse linguistiche limitate come l’italiano? In primo luogo, abbiamo esaminato in modo sistematico la letteratura sugli agenti conversazionali per le persone con NDD e abbiamo condotto due studi empirici per valutare i vantaggi e gli svantaggi dell’adozione di tali tecnologie durante la terapia. I risultati di questi esperimenti sembrerebbero indicare che gli utenti con NDD generalmente (i) faticano ad essere capiti dagli agenti conversazionali a causa dei loro disturbi del linguaggio e (ii) stentano a rispettare il protocollo comunicativo imposto da molti agenti che prevede l’esecuzione di un’operazione preliminare da parte degli utenti al fine di attivare il riconoscimento vocale ad ogni scambio della conversazione (wake action). Ciononostante, (iii) l’uso di un agente di conversazione emotion-aware si `e rivelato in grado di migliorare le abilit`a sociali e di comunicazione delle persone con NDD (ad esempio, le capacità di espressione delle emozioni). Considerati i risultati emersi dai nostri studi riguardo l’importanza della capacità di gestire le emozioni da parte degli agenti conversazionali per NDD, abbiamo esteso la nostra ricerca al campo dell’analisi del parlato emotivo. Abbiamo valutato le prestazioni di alcuni servizi di trascrizione automatizzata su audio neutrali ed emotivi in italiano, tedesco e inglese. Abbiamo scoperto che il parlato emotivo incide negativamente sulle prestazioni del riconoscimento automatico delle parole. Questo esito ha messo in luce la necessità di ulteriori risorse linguistiche e di indagini più approfondite sui sistemi di riconoscimento delle emozioni nel parlato. In risposta a questa necessità, abbiamo creato un dataset emotivo ottenuto tramite crowd-sourcing e lo abbiamo chiamato Emozionalmente. Emozionalmente contiene 6902 audio registrati da 431 attori non professionisti mentre verbalizzavano 18 frasi esprimendo rabbia, disgusto, paura, gioia, tristezza, sorpresa e neutralit`a. Proprio a partire dagli audio di Emozionalmente, abbiamo eseguito una serie di analisi sul riconoscimento delle emozioni nel parlato. Questi esperimenti hanno dimostrato che un modello di deep learning basato sui transformers per cui abbiamo effettuato il fine-tuning su Emozionalmente ha raggiunto un’accuratezza nel riconoscimento delle emozioni paragonabile a quella degli esseri umani. Pertanto, tale modello potrebbe essere integrato negli agenti conversazionali e sfruttato per applicazioni di supporto a persone con NDD, come Emoty. Nel complesso, i risultati di questa ricerca di dottorato informano gli interaction designer e gli sviluppatori circa alcuni aspetti cruciali della progettazione di agenti conversazionali emotion-aware, sia che vengano utilizzati per persone con NDD che per la popolazione neurotipica. Inoltre, questo lavoro dà il via a una serie di ricerche future con l’intento di migliorare la comprensione dei meccanismi cognitivi, sociali ed emotivi associati ai disturbi del neurosviluppo e a nuove forme di interventi terapeutici per questi soggetti.
File allegati
File Dimensione Formato  
PhDThesis_FabioCatania.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Ph.D. Thesis
Dimensione 33.39 MB
Formato Adobe PDF
33.39 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/184132