Dialogue self-play and crowdsourcing to collect annotated data for a chatbot

The impact of chatbot technologies on our economies, services, and society as a whole is becoming more evident year by year and it's deeply influencing the future prospects of human-computer interaction. Conversational agents are not a new thing. Nonetheless, this area of research and development is still fertile ground for new innovation, especially from the field of Artificial Intelligence. Historically, ad-hoc scripting languages were built to develop rule-based agents able to react to specific keywords or elements contained in the user input. Nowadays, deep learning based systems are becoming trending because they allow for more flexible and robust conversational models. One of the curses of recent-years Artificial Intelligence, especially in the sub-field of deep learning, is the constant need for large datasets used to train models and algorithms. Gathering and annotating dialogues is a time and resource consuming process; knowledge is also not always transferable, especially when it deals with task-specific data as in the case of goal-oriented chatbots. On the other hand, pattern-based chatbots for goal-oriented tasks are relatively easy to design and implement but fail in achieving the natural feel of interaction demanded by today's users. The goal of this work is to explore the applicability of Machines talking to Machines (acrshort{M2M}), a new framework to collect annotated datasets that can be used to train neural-based dialogue models. acrshort{M2M} makes use of a technique called dialogue self-play to build dialogue templates on top of computer-generated semantic annotations; in a successive phase, real users perform paraphrases of the templates to build up natural dialogues reflecting the underlying annotations. In this thesis, for the crowdsourcing phase, we tried to involve and compare the outcomes of classical workers from online platforms, and the real users of a chatbot called Siirtobot developed for the company 20Hexagons Oy. The results show that it is possible to integrate this data collection approach within a rule-based chatbot. The datasets collected from professional workers and actual users of a service show that the latter introduces a considerably higher dialogue diversity and linguistic richness, useful to train robust and flexible neural models. We also showcased how the collected data can be later used to bootstrap a neural agent by implementing and training a state-of-the-art module for Natural Language Generation.

L’impatto dei chatbot sulle nostre economie, sui servizi e sulla società nel suo complesso sta diventando anno dopo anno più evidente influenzando profondamente i futuri prospetti dell’interazione tra uomo e macchina. I chatbots non rappresentano una novità recente, tuttavia questa area di ricerca continua ad essere terreno fertile per l’innovazione, specialmente nel campo dell’Intelligenza Artificiale. Storicamente, linguaggi di scripting ad-hoc sono stati costruiti per sviluppare agenti rule-based capaci di reagire a specifiche parole chiave o elementi contenuti nell’input dell’utente. Ad oggi, prodotti basati sul deep learning sono molto in voga perché permettono di realizzare dei modelli più flessibili e robusti. Uno dei maggiori problemi nel campo dell’intelligenza Artificiale degli ultimi anni, specialmente nella sotto-area del deep learning, è la costante necessità di trainare modelli e algoritmi con enormi moli di dati. Raccogliere ed annotare dei dialoghi per questo scopo è un processo lento e costoso; la conoscenza acquisita dai modelli inoltre non è facilmente trasferibile, soprattutto quando i dati fanno riferimento a scenari molto specifici come nel caso dei chatbot task-oriented. D’altra parte, i chatbot basati su regole pensati per risolvere specifici problemi sono relativamente facili da realizzare ma non permettono di ottenere quella sensazione di interazione naturale ormai richiesta dagli utenti. Lo scopo di questa tesi è di esplorare l’applicabilità di Machines talking to Machines (M2M), un nuovo framework che permette di raccogliere dataset annotati per l'implementazione di chatbot basati su modelli di deep learning. M2M sfrutta una tecnica chiamata dialogue self-play per creare templates di dialoghi sulla base di annotazioni semantiche generate automaticamente; in una fase successiva, questi templates vengono parafrasarti da utenti in carne ed ossa in modo da ottenere dei dialoghi naturali che riflettono il contenuto delle annotazioni semantiche sottostanti. In questo progetto di tesi, per la fase finale di crowdsourcing, abbiamo provato a comparare i risultati ottenuti con utenti assoldati su piattaforme online come Amazon Mechanical Turk, e i veri utenti di un chatbot chiamato Siirtobot sviluppato per la compagnia 20Hexagons Oy. I risultati mostrano come sia possibile integrare il processo di raccolta dati sopra descritto all’interno di un chatbot rule-based. I dataset raccolti dagli utenti assoldati e i veri utilizzatori di un servizio rivelano che questi ultimi garantiscono una diversità dei dialoghi e una ricchezza linguistica considerevolmente più elevata, utile per realizzare modelli neurali robusti e flessibili. Abbiamo inoltre implementato e trainato un modulo di Natural Language Generation evidenziando come questi dati possano essere utilizzati in pratica.