Cross-domain textual explanations for explainable AI

From the development of self-driving cars to smart assistants, Artificial Intelligence has become a part of most systems we use in our everyday life. Machine learning algorithms used in these systems are black-box models, whose internal working is unknown. Explaining or interpreting the outputs of these models is not possible. Many experts remain wary of using machine learning due to this concern, especially in the domains where these predictions are crucial for decision-making. This makes explainable AI an important field as it provides tools and methods to explain these models. Many works have been done in xAI to produce explanations. However, for normal users who are not from scientific domains, understanding these visual explanations would be another hurdle. So producing natural language explanations for the machine learning models is important. In this work, we develop a system that produces textual explanations for the classification problem. A grammar that was already developed as part of the initial research on this topic is used to generate new training datasets from new domains. In the previous work, GPT-2 model was fine-tuned on cardiovascular and diabetes datasets to produce the textual explanation. Even though the results were promising for explaining datasets from the said domains, the models failed to generalize for new domains. In this work, we further develop the system to make it more generalized to produce textual explanations for classification models from any domain. We add 6 new datasets from multiple domains for training the models. We introduce a modified encoding for the inputs and modified grammar for developing outputs for training. We experimented with the T5 language model for text generation. The Results of the comparative study done on GPT-2 and T5 models show that the T5 model is best suited for this task. We present a multi-domain textual explanation model fine-tuned on T5 that can produce textual explanations for classification models from any domain. We also explore ways to make the model produce more meaningful and varying natural language outputs different from the grammar.

Dallo sviluppo di auto a guida autonoma agli assistenti intelligenti, l'intelligenza artificiale è diventata una parte di molti dei sistemi che usiamo nella nostra vita quotidiana. Gli algoritmi di apprendimento automatico utilizzati in questi sistemi sono modelli black-box, il cui funzionamento interno è sconosciuto. Non è possibile chiarire o interpretare gli output di questi modelli. Molti esperti rimangono cauti nei confronti dell'utilizzo dell'apprendimento automatico a causa di questa preoccupazione, specialmente nei domini in cui queste previsioni sono cruciali per il processo decisionale. Questo rende l'intelligenza artificiale spiegabile un campo importante in quanto fornisce strumenti e metodi per spiegare questi modelli. Molti lavori sono stati fatti nell'xAI per produrre spiegazioni. Tuttavia, per gli utenti normali che non hanno conoscenze in campi scientifici, comprendere queste spiegazioni visive sarebbe un altro ostacolo. Quindi produrre spiegazioni in linguaggio naturale, per i modelli di apprendimento automatico, è importante. In questo lavoro, sviluppiamo un sistema che produce spiegazioni testuali per il problema di classificazione. Una grammatica, che era stata già sviluppata come parte della ricerca iniziale su questo argomento, è usata per generare nuovi insiemi di dati di addestramento da nuovi domini. Nel lavoro precedente, il modello GPT-2 è stato ottimizzato su insiemi di dati cardiovascolari e diabetici per produrre la spiegazione testuale. Anche se i risultati sono stati promettenti per spiegare gli insiemi di dati dei suddetti domini, i modelli non sono riusciti a generalizzare per nuovi domini. In questo lavoro, sviluppiamo ulteriormente il sistema per renderlo più generalizzato, per produrre spiegazioni testuali per i modelli di classificazione da qualsiasi dominio. Aggiungiamo 6 nuovi insiemi di dati da diversi domini per addestrare i modelli. Introduciamo una codifica modificata per gli input e una grammatica modificata per sviluppare outputs per l'addestramento. Abbiamo sperimentato il modello di linguaggio T5 per la generazione del testo. I risultati dello studio comparativo condotto sui modelli GPT-2 e T5 mostrano che il modello T5 è più adatto per questo compito. Presentiamo un modello di spiegazione testuale multidominio ottimizzato su T5 che può produrre spiegazioni testuali per i modelli di classificazione da qualsiasi dominio. Esploriamo anche modi per far produrre al modello outputs diversi, dalla grammatica, in linguaggio naturale, più significativi e vari.