Multimodal conversational interfaces : design, modelling, applications

A conversational agent is a software that mimics human conversation. They are becoming increasingly successful and adopted in a wide range of domains, such as education, user assistance, mental health, and home automation. In recent years, the interaction with conversational agents has been blended with other interaction modalities to increase the system’s capabilities, creating new multimodal paradigms for interaction. However, this integration is still limited from a methodological perspective despite being broadly exploited. This Ph.D. research investigates the design, modeling, and development of multimodal conversational agents. This work starts exploring this domain from the design of GeCoAgent and DSBot, two conversational agents to support the data science process. GeCoAgent is a multimodal conversational platform to enable biologists and clinicians to define data analysis pipelines on genomic data through dialogue. The platform automatically translates it into code, executes it, and returns the user the results. GeCoAgent’s design process also led to modeling the bioinformatics tertiary analysis process in the form of an ontology that can be used as a reference to elicit the requirements for interactive applications. DSBot evolves this concept by providing a tool that translates users’ research questions, expressed in natural language, into executable pipelines. The system exploits autoML methodologies to select the best algorithm and optimize the parameter selection automatically. Users are involved in the process through the conversation when decisions related to the meaning of the data must be taken. In addition, we release one of the two modules of DSBot as an open-source framework for multimodal conversational troubleshooting. Having assessed the potentialities of multimodal conversational interfaces, we realize that their design is a largely unexplored field. For this reason, we survey the literature to elicit a set of principles to follow during the design process, and we formalize a conceptual frame- work to describe the possible degrees of integration of conversational agents and other interfaces. Then, we complement the finding in the literature by analyzing the impact of multimodality on the conversational experience from a linguistic perspective. We observe users’ linguistic performances in a comparative study with more than 120 participants to assess how the introduction of graphical elements affects the conversational experience. We use these findings to ground the formulation of a conceptual model to support the design process of multimodal conversational interfaces. The model exploits hierarchical schemes, inspired by BPMN formalism, to model conversational interaction and separate the task’s description from how it is reified on the various modalities. In the last part of the thesis, we describe Albot Einstein, a case study of a multimodal pedagogical conversational agent to teach pH to children. In addition, to validate the descriptive capabilities of the model, we test the platform’s efficacy in a comparative study with 28 children, obtaining results comparable to the ones achieved through a ‘‘traditional” interactive web application. We design and develop a graphical authoring tool that enables that transform expressed in a notation derived from one of the model into an instance of the application backend. An empirical evaluation with 15 developers shows how such an interface can support developing multimodal conversational interfaces. Finally, we discuss how the work presented can be framed in a single framework that covers a multimodal conversational agent’s whole design and implementation process.

Un agente conversazionale è un software che imita la conversazione umana. Questi agenti stanno riscuotendo sempre più successo e sono adottati in un’ampia gamma di settori, come l’istruzione, l’assistenza agli utenti, la salute mentale e la domotica. Negli ultimi anni, l’interazione con gli agenti conversazionali è stata integrata con altre modalità di interazione per aumentare le capacità del sistema, creando nuovi paradigmi di interazione multimodale. Tuttavia, nonostante sia ampiamente sfruttata, questa integrazione è ancora limitata da un punto di vista metodologico. Questa tesi studia la progettazione, la modellazione e lo sviluppo di agenti conversazionali multimodali. Il lavoro inizia ad esplorare questo dominio partendo dalla progettazione di GeCoAgent e DSBot, due agenti conversazionali a supporto del processo di data science. GeCoAgent è una piattaforma conversazionale multimodale che consente a biologi e clinici di definire pipeline di analisi dei dati genomici attraverso il dialogo con il sistema. La piattaforma lo traduce automaticamente in codice, lo esegue e restituisce all’utente i risultati. Il processo di progettazione di GeCoAgent ha portato anche a modellare il processo di analisi terziaria bioinformatica sotto forma di un’ontologia che può essere utilizzata come riferimento per elicitare i requisiti delle applicazioni interattive. DSBot evolve questo concetto fornendo uno strumento che traduce le domande di ricerca degli utenti, espresse in linguaggio naturale, in pipeline eseguibili. Il sistema sfrutta le metodologie autoML per selezionare l’algoritmo migliore e ottimizzare la scelta dei parametri in modo automatico. Gli utenti sono coinvolti nel processo attraverso la conversazione quando devono essere prese decisioni relative al significato dei dati. Inoltre, abbiamo ri- lasciato uno dei due moduli di DSBot come framework open-source per la risoluzione di problemi conversazionali multimodali. Dopo aver valutato le potenzialità delle interfacce conversazionali multimodali, ci siamo resi conto che la loro progettazione è un dominio largamente inesplorato. Per questo motivo, abbiamo analizzato la letteratura per elicitare una serie di principi da seguire durante il processo di progettazione e abbiamo formalizzato un quadro concettuale per descrivere i possibili gradi di integrazione tra agenti conversazionali e interfacce che sfruttano altre modalità. Successivamente, integriamo i risultati della letteratura tramite l’analisi dell’impatto della multimodalità sull’esperienza conversazionale da una prospettiva linguistica. Osserviamo le performance linguistiche degli utenti in uno studio comparativo con più di 200 partecipanti per valutare come l’introduzione di elementi grafici influisca sull’esperienza conversazionale. Su questi risultati, fondiamo la formulazione di un modello concettuale a supporto del processo di progettazione di interfacce conversazionali multimodali. Il modello sfrutta diagrammi gerarchici, ispirati al formalismo BPMN, per modellare l’interazione conversazionale e separare la descrizione del compito da come viene reificato nelle varie modalità. Nell’ultima parte della tesi, descriviamo Albot Einstein, un caso di studio di un agente conversazionale pedagogico multimodale per insegnare il pH ai bambini. Inoltre, per validare le capacità descrittive del modello, testiamo l’efficacia della piattaforma in uno studio comparativo con 28 bambini, ottenendo risultati paragonabili a quelli ottenuti con un’applicazione web interattiva “tradizionale”. Abbiamo progettato e sviluppato uno strumento di authoring grafico che consente di trasformare le informazioni espresse in una notazione derivata da quella del modello in un’istanza di backend dell’applicazione. Una valutazione empirica con 15 sviluppatori mostra come tale interfaccia possa supportare lo sviluppo di interfacce conversazionali multimodali. Infine, discutiamo come il lavoro presentato possa essere inquadrato in un unico frame- work che copre l’intero processo di progettazione e implementazione di un agente conversazionale multimodale.