Towards automatic cognitive impairment detection in a cross-lingual context

Neurodegenerative disorders linked with aging, such as cognitive impairment, dementia, and Alzheimer’s disease, are a growing worldwide problem as the median age of the global population is increasing more and more in recent years. It is essential to develop automated methods that can be an aid in identifying the first symptoms of these diseases, such as speech and language alteration, in order to detect the earliest disease stages better. The ultimate goal of this project is to take a step towards an automated methodology that, starting from patients' linguistic samples, can spot the presence of linguistic patterns related to cognitive impairment, independently from the language of the subject. We focus our study on two different groups of subjects. The first is composed of English-speaking elderly subjects, whereas the second includes Italian-speaking elderly subjects. We aim to identify an automated methodology that can effectively recognize linguistic patterns related to patients’ cognitive impairment from conversational transcripts. We aim to identify a methodology that is effective when a single language is considered, but also when samples in different languages are considered. We analyze different machine learning models based on topic modeling techniques, support vector machines, classical deep learning models and Transformers to classify English-speaking patients in two classes of cognitive impairment. Besides, we propose a possible adaptation of the various models discussed to cross-lingual cognitive impairment detection scenario that consider both English and Italian subjects. We find that the introduction of syntactic linguistic features alongside semantic features, when deep learning models are considered, improves classification performance on the English dataset (accuracy 82.45% vs. 81.11%). In the same context, we demonstrate that Transformer-based models (F1-score 83.86%) can achieve results comparable with the current state-of-the-art deep learning model (F1-score 84.43%), without a problem-specific architecture engineering. We found that deep domain adaptation on the Transformer model can improve Italian patients' cognitive impairment classification in cross-lingual context (accuracy 78%, F1-score 77%) compared to single-language context (accuracy 77%, F1-score 73%). This work lays the foundation for further research in end-to-end methods to perform cross-lingual cognitive impairment detection.

I disturbi neurodegenerativi legati al processo di invecchiamento, come declino cognitivo, il morbo di Alzheimer e la demenza, sono un problema mondiale sempre più diffuso in quanto negli ultimi anni l’età media della popolazione sta aumentando sempre più. È essenziale sviluppare metodi automatizzati che possano essere di ausilio nell’identificazione dei primi sintomi di queste malattie, come l’alterazione del linguaggio e del parlato, al fine di individuare al meglio i primi stadi della malattia. L’obiettivo finale di questo lavoro è quello di compiere un passo in avanti verso la realizzazione di una metodologia automatizzata che, partendo da campioni linguistici dei pazienti, sia in grado di individuare la presenza di schemi linguistici legati alla demenza o al deterioramento cognitivo, indipendentemente dalla lingua parlata dal soggetto. Il nostro studio si focalizza su due diversi gruppi di soggetti. Il primo è composto da pazienti anglofoni, mentre il secondo include pazienti di lingua italiana. Puntiamo ad identificare una metodologia automatizzata che sia in grado di riconoscere i pattern linguistici legati al declino cognitivo del paziente a partire da trascrizioni di conversazioni. Puntiamo ad identificare una metodologia che sia efficace non solo quando si considera una singola lingua, ma anche quando si prendono in considerazione esempi in differenti lingue. Analizziamo diversi modelli di apprendimento automatico basati su topic modeling, support vector machines, modelli di deep learning classici e Transformers per classificare i pazienti anglofoni in due classi in base al loro grado di declino cognitivo. Inoltre, proponiamo un possibile adattamento dei modelli analizzati ad uno scenario di classificazione cross-linguistico che considera sia i pazienti anglofoni che quelli di lingua italiana. Relativamente ai modelli di deep learning utilizzati, abbiamo osservato che l’introduzione di feature linguistiche di natura sintattica accanto a quelle di natura semantica, migliora le performance sulla classificazione del declino cognitivo per pazienti anglofoni (accuracy 82.45% vs. 81.11). Nello stesso contesto, dimostriamo che i modelli basati su Transformer (F1-score 83.86%) possono ottenere risultati comparabili all’attuale modello di deep learning considerato come lo stato dell’arte (F1-score 84.43%), senza una ingegnerizzazione del modello specifica al problema. Troviamo che la tecnica di domain adaptation analizzata sul modello Transformer può migliorare la classificazione del declino cognitivo per pazienti di lingua italiana nel contesto cross-linguistico (accuracy 78%, F1-score 77%) rispetto a quello basato esclusivamente sull’Italiano (accuracy 77%, F1-score 73%). Questo lavoro pone le basi per ulteriore ricerca nell’ambito dei modelli end-to-end per l’identificazione automatica del declino cognitivo in contesti cross-linguistici.