Multimodal Large Language Models (MLLM) represent a growing frontier in artificial intelligence, particularly for tasks requiring the integration of visual and textual information. This research explores the potential of MLLMs as support tools in clinical practice, specifically focusing on pancreatic image analysis. The experiments conducted include pancreas detection, visual question answering on the presence of a tumor, and tumor localization. Using a model based on MiniGPT-v2, fine-tuned through the parameter-efficient technique of low-rank adaptation, the goal is to assess the utility of MLLMs in automating critical tasks such as organ detection and tumor identification. The model demonstrated an Intersection over Union score (IoU) of 57.44% for pancreas detection, and an accuracy of 87.57% in classifying the presence of a pancreatic tumor. However, tumor localization proved more challenging, with an IoU score of 16.83%, reflecting the complexity of detecting smaller structures within medical images. A secondary experiment involving multi-organ detection demonstrated the model’s ability to generalize across different organs, achieving the best performance on liver detection with an IoU score of 83.90%. These findings highlight the promise of MLLMs in integrating visual and textual data to assist clinical decision-making, though further work is needed to improve their performance in precise localization tasks. Overall, this research contributes to the growing field of AI applications in healthcare, providing insight into the use of MLLMs for medical image analysis.

I modelli linguistici multimodali di grandi dimensioni (MLLM) rappresentano una frontiera in crescita nell’intelligenza artificiale, in particolare per compiti che richiedono l’integrazione di informazioni visive e testuali. Questa ricerca esplora il potenziale degli MLLM come strumenti di supporto nella pratica clinica, con un focus specifico sull’analisi delle immagini pancreatiche. Gli esperimenti condotti includono la localizzazione del pancreas, la risposta visiva sulla presenza di un tumore e la localizzazione del tumore. Utilizzando un modello basato su MiniGPT-v2, perfezionato tramite la tecnica di adattamento efficiente di low-rank adaptation, l’obiettivo è valutare l’utilità degli MLLM nell’automazione di compiti critici come la rilevazione degli organi e l’identificazione dei tumori. Il modello ha dimostrato un punteggio di Intersection over Union (IoU) del 57.44% per la rilevazione del pancreas e un’accuratezza dell’87.57% nella classificazione della presenza di un tumore pancreatico. Tuttavia, la localizzazione del tumore si è rivelata più complessa, con un punteggio IoU del 16,83%, riflettendo la difficoltà di rilevare strutture più piccole nelle immagini mediche. Un esperimento secondario, che ha coinvolto la rilevazione multi-organo, ha dimostrato la capacità del modello di generalizzare su organi diversi, ottenendo la miglior performance nella rilevazione del fegato con un punteggio IoU dell’83.90%. Questi risultati evidenziano il potenziale degli MLLM nell’integrare dati visivi e testuali per assistere il processo decisionale clinico, anche se ulteriori miglioramenti sono necessari per perfezionare le prestazioni nei compiti di localizzazione più precisi. Nel complesso, questa ricerca contribuisce al campo emergente delle applicazioni dell’intelligenza artificiale in sanità, fornendo indicazioni sull’uso degli MLLM per l’analisi delle immagini mediche.

Multimodal Large Language Models for Pancreatic Diagnostic Support

NASTASIO, ELIA CLEMENT
2023/2024

Abstract

Multimodal Large Language Models (MLLM) represent a growing frontier in artificial intelligence, particularly for tasks requiring the integration of visual and textual information. This research explores the potential of MLLMs as support tools in clinical practice, specifically focusing on pancreatic image analysis. The experiments conducted include pancreas detection, visual question answering on the presence of a tumor, and tumor localization. Using a model based on MiniGPT-v2, fine-tuned through the parameter-efficient technique of low-rank adaptation, the goal is to assess the utility of MLLMs in automating critical tasks such as organ detection and tumor identification. The model demonstrated an Intersection over Union score (IoU) of 57.44% for pancreas detection, and an accuracy of 87.57% in classifying the presence of a pancreatic tumor. However, tumor localization proved more challenging, with an IoU score of 16.83%, reflecting the complexity of detecting smaller structures within medical images. A secondary experiment involving multi-organ detection demonstrated the model’s ability to generalize across different organs, achieving the best performance on liver detection with an IoU score of 83.90%. These findings highlight the promise of MLLMs in integrating visual and textual data to assist clinical decision-making, though further work is needed to improve their performance in precise localization tasks. Overall, this research contributes to the growing field of AI applications in healthcare, providing insight into the use of MLLMs for medical image analysis.
CERVERI, PIETRO
ING - Scuola di Ingegneria Industriale e dell'Informazione
10-ott-2024
2023/2024
I modelli linguistici multimodali di grandi dimensioni (MLLM) rappresentano una frontiera in crescita nell’intelligenza artificiale, in particolare per compiti che richiedono l’integrazione di informazioni visive e testuali. Questa ricerca esplora il potenziale degli MLLM come strumenti di supporto nella pratica clinica, con un focus specifico sull’analisi delle immagini pancreatiche. Gli esperimenti condotti includono la localizzazione del pancreas, la risposta visiva sulla presenza di un tumore e la localizzazione del tumore. Utilizzando un modello basato su MiniGPT-v2, perfezionato tramite la tecnica di adattamento efficiente di low-rank adaptation, l’obiettivo è valutare l’utilità degli MLLM nell’automazione di compiti critici come la rilevazione degli organi e l’identificazione dei tumori. Il modello ha dimostrato un punteggio di Intersection over Union (IoU) del 57.44% per la rilevazione del pancreas e un’accuratezza dell’87.57% nella classificazione della presenza di un tumore pancreatico. Tuttavia, la localizzazione del tumore si è rivelata più complessa, con un punteggio IoU del 16,83%, riflettendo la difficoltà di rilevare strutture più piccole nelle immagini mediche. Un esperimento secondario, che ha coinvolto la rilevazione multi-organo, ha dimostrato la capacità del modello di generalizzare su organi diversi, ottenendo la miglior performance nella rilevazione del fegato con un punteggio IoU dell’83.90%. Questi risultati evidenziano il potenziale degli MLLM nell’integrare dati visivi e testuali per assistere il processo decisionale clinico, anche se ulteriori miglioramenti sono necessari per perfezionare le prestazioni nei compiti di localizzazione più precisi. Nel complesso, questa ricerca contribuisce al campo emergente delle applicazioni dell’intelligenza artificiale in sanità, fornendo indicazioni sull’uso degli MLLM per l’analisi delle immagini mediche.
File allegati
File Dimensione Formato  
Thesis_Elia_Clement_Nastasio.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Thesis
Dimensione 6.37 MB
Formato Adobe PDF
6.37 MB Adobe PDF   Visualizza/Apri
Executive_Summary_Elia_Clement_Nastasio.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Executive Summary
Dimensione 1.36 MB
Formato Adobe PDF
1.36 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/227245