In recent years, with the growing interest in Machine Learning (ML) to assist clinical decision making and improve patient engagement, algorithms for automated medical image interpretation are being sought and are continuously evolving. A particular task of interest in the medical domain is Visual Question Answering (VQA) which aspires to build models that can answer diagnostically relevant natural language questions about medical images. Medical VQA algorithms can provide medical professionals with an automated “second opinion” for their diagnosis and patients with a personalised and more accurate alternative to search engines (i.e Google) that they often rely on to interpret their clinical data, which may result in imprecise, confusing and misleading information. The development of accurate VQA models requires large amounts of data which were previously unavailable in the medical sector, but are now becoming increasingly accessible mainly as a result of the ImageCLEF competitions that are spurring progress in this field. In this thesis we analyzed the Medical VQA task from simpler Long Short Term Memory (LSTM) based models to state-of-the-art Transformer based models, expanding upon them by changing the data used in the various stages of training and the models themselves, demonstrating the difference in performance between them. As a result of the numerous experiments we conducted we were able to achieve new state-of-the-art performance by improving upon the Multimodal BERT (MMBERT) model through the use of a clinically pretrained BERT language model (Clinical BioBert).

Negli ultimi anni, a fronte del crescente interesse per le applicazioni del Machine Learning (ML) volte ad assistere il processo clinico decisionale e a migliorare il coinvolgimento dei pazienti, si ricercano e sono in continua evoluzione algoritmi per l'interpretazione automatizzata delle immagini mediche. Un task di particolare rilevanza in campo medico è il Visual Question Answering (VQA), che aspira a costruire modelli in grado di rispondere a domande, rilevanti dal punto di vista diagnostico, poste in linguaggio naturale riguardanti immagini mediche. Gli algoritmi di medical VQA possono fornire ai medici una "seconda opinione" automatizzata per le loro diagnosi e ai pazienti un'alternativa personalizzata e più accurata rispetto ai motori di ricerca (come Google), a cui spesso si affidano per interpretare i loro dati clinici e che possono risultare in informazioni imprecise, confuse e fuorvianti. Lo sviluppo di modelli VQA richiede grandi quantità di dati diventati disponibili solo di recente principalmente grazie alle competizioni ImageCLEF. In questa tesi abbiamo analizzato il medical VQA task, partendo da modelli più semplici basati su Long Short Term Memory (LSTM) per poi passare a modelli all'avanguardia basati sul Transformer, sperimentando con i dati utilizzati nelle varie fasi di training e con i modelli stessi, così da dimostrare la differenza di prestazioni tra essi. Come emerso dai numerosi esperimenti condotti, abbiamo raggiunto prestazioni all'avanguardia grazie all'utilizzo di un modello di linguaggio BERT pre-addestrato con informazioni cliniche (Clinical BioBert) applicato al modello Multimodal BERT (MMBERT).

Medical VQA analysis and improvement using clinically pretrained BERT

de GAST, KAI
2020/2021

Abstract

In recent years, with the growing interest in Machine Learning (ML) to assist clinical decision making and improve patient engagement, algorithms for automated medical image interpretation are being sought and are continuously evolving. A particular task of interest in the medical domain is Visual Question Answering (VQA) which aspires to build models that can answer diagnostically relevant natural language questions about medical images. Medical VQA algorithms can provide medical professionals with an automated “second opinion” for their diagnosis and patients with a personalised and more accurate alternative to search engines (i.e Google) that they often rely on to interpret their clinical data, which may result in imprecise, confusing and misleading information. The development of accurate VQA models requires large amounts of data which were previously unavailable in the medical sector, but are now becoming increasingly accessible mainly as a result of the ImageCLEF competitions that are spurring progress in this field. In this thesis we analyzed the Medical VQA task from simpler Long Short Term Memory (LSTM) based models to state-of-the-art Transformer based models, expanding upon them by changing the data used in the various stages of training and the models themselves, demonstrating the difference in performance between them. As a result of the numerous experiments we conducted we were able to achieve new state-of-the-art performance by improving upon the Multimodal BERT (MMBERT) model through the use of a clinically pretrained BERT language model (Clinical BioBert).
MATTEUCCI, MATTEO
ING - Scuola di Ingegneria Industriale e dell'Informazione
21-dic-2021
2020/2021
Negli ultimi anni, a fronte del crescente interesse per le applicazioni del Machine Learning (ML) volte ad assistere il processo clinico decisionale e a migliorare il coinvolgimento dei pazienti, si ricercano e sono in continua evoluzione algoritmi per l'interpretazione automatizzata delle immagini mediche. Un task di particolare rilevanza in campo medico è il Visual Question Answering (VQA), che aspira a costruire modelli in grado di rispondere a domande, rilevanti dal punto di vista diagnostico, poste in linguaggio naturale riguardanti immagini mediche. Gli algoritmi di medical VQA possono fornire ai medici una "seconda opinione" automatizzata per le loro diagnosi e ai pazienti un'alternativa personalizzata e più accurata rispetto ai motori di ricerca (come Google), a cui spesso si affidano per interpretare i loro dati clinici e che possono risultare in informazioni imprecise, confuse e fuorvianti. Lo sviluppo di modelli VQA richiede grandi quantità di dati diventati disponibili solo di recente principalmente grazie alle competizioni ImageCLEF. In questa tesi abbiamo analizzato il medical VQA task, partendo da modelli più semplici basati su Long Short Term Memory (LSTM) per poi passare a modelli all'avanguardia basati sul Transformer, sperimentando con i dati utilizzati nelle varie fasi di training e con i modelli stessi, così da dimostrare la differenza di prestazioni tra essi. Come emerso dai numerosi esperimenti condotti, abbiamo raggiunto prestazioni all'avanguardia grazie all'utilizzo di un modello di linguaggio BERT pre-addestrato con informazioni cliniche (Clinical BioBert) applicato al modello Multimodal BERT (MMBERT).
File allegati
File Dimensione Formato  
merged_MedVQAThesis.pdf

Open Access dal 29/11/2022

Descrizione: Medical VQA Analysis and Improvement using Clinically Pretrained BERT
Dimensione 6.16 MB
Formato Adobe PDF
6.16 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/183315