The glioma, or more broadly, brain tumor, represents one of the most debilitating and challenging to treat pathologies. Over the years, the development of medical imaging techniques has allowed for increasingly accurate diagnoses. Among these, one of the most widely used is Magnetic Resonance Imaging (MRI). The segmentation of tumor regions poses a complex challenge that requires significant expertise in the field and is vital for understanding its structure and evaluating therapeutic actions to be undertaken. In recent years, various techniques have been developed to assist medical personnel in this task, particularly methodologies based on Deep Learning and Artificial Intelligence. Concurrently, there has been a rise in the popularity of the Transformer in image analysis, in contrast to its traditional use for textual analysis. This architecture can capture long-range dependencies in input images and demonstrates significant parallelization potential, sometimes surpassing state-of-the-art architectures like Convolutional Neural Networks in both performance and efficiency. However, it should be noted that this architecture requires a substantial amount of data to be adequately trained, which is not always guaranteed in the medical field. In the context of this thesis, two architectures, namely Segmenter and SwinUNETR, will be employed to create models capable of addressing this challenge. The former is designed to analyze bi-dimensional RGB images, while the latter is specifically designed for the segmentation of 3D MRI scans. To address the limited data availability, regularization techniques, data augmentation, and transfer learning will be implemented. Thirteen models will be trained using a subset of the data provided in the 2019 edition of the BraTS Challenge. With 227 patient scans used for training, 49 for validation, and 59 for testing, the comparative analysis reveals that SwinUNETR is capable of providing more accurate and robust predictions, and also with less variability compared to Segmenter, which shows more heterogeneous results based on the pre-processing techniques applied to the training set. Furthermore, the results suggest that Transformer-based networks can challenge most of the state-of-the-art CNN-based algorithms addressing the same task.

Il glioma, o più in generale il tumore cerebrale, rappresenta una delle patologie più debilitanti e complesse da trattare. Nel corso degli anni, lo sviluppo di tecniche di imaging medico ha permesso diagnosi sempre più accurate. Di queste, una delle più utilizzate è la risonanza magnetica (MRI). La segmentazione delle regioni di un tumore costituisce una sfida complessa che richiede notevole esperienza nel settore ed è di vitale importanza per comprenderne la struttura e per valutare le azioni terapeutiche da intraprendere. Negli ultimi anni, sono state sviluppate diverse tecniche per assistere il personale medico in questo compito, in particolare metodologie basate su Deep Learning e AI. Contestualmente, si è osservato un aumento della popolarità del Transformer nell’analisi di immagini, in contrasto con il suo utilizzo tradizionale per l’analisi testuale. Questa architettura è in grado di catturare dipendenze a lungo raggio nelle immagini di input e mostra un notevole potenziale di parallelizzazione, superando sia in prestazioni che in efficienza le architetture dello stato dell’arte come le CNN. Tuttavia, va notato che questa architettura richiede una quantità sostanziale di dati per essere adeguatamente addestrata, il che non è sempre scontato nel campo medico. Nel contesto di questa tesi, saranno impiegate due architetture, denominate Segmenter e SwinUNETR, per creare modelli capaci di affrontare questa sfida. Il primo è progettato per analizzare immagini RGB bidimensionali, mentre il secondo è concepito specificatamente per la segmentazione di risonanze 3D. Per bilanciare la limitata disponibilità di dati, saranno implementate tecniche di regolarizzazione, data augmentation e transfer learning. Verranno addestrati 13 modelli utilizzando un sottoinsieme dei dati forniti nell’edizione del 2019 della BraTS Challenge. Con le risonanze di 227 pazienti impiegate per l’addestramento, di 49 pazienti per la validazione e 59 pazienti per il test dei risultati, l’analisi comparativa rivela che SwinUNETR è in grado di fornire previsioni più accurate, più robuste con una minore variabilità rispetto al Segmenter, il quale mostra risultati più eterogenei in base alle tecniche di pre-processing applicate al training set. Inoltre, i risultati suggeriscono che le reti basate su Transformer hanno il potenziale per superare gli algoritmi CNN all’avanguardia che affrontano la stessa sfida.

Brain MRI tumor segmentation with vision transformers

Maitan, Massimo
2022/2023

Abstract

The glioma, or more broadly, brain tumor, represents one of the most debilitating and challenging to treat pathologies. Over the years, the development of medical imaging techniques has allowed for increasingly accurate diagnoses. Among these, one of the most widely used is Magnetic Resonance Imaging (MRI). The segmentation of tumor regions poses a complex challenge that requires significant expertise in the field and is vital for understanding its structure and evaluating therapeutic actions to be undertaken. In recent years, various techniques have been developed to assist medical personnel in this task, particularly methodologies based on Deep Learning and Artificial Intelligence. Concurrently, there has been a rise in the popularity of the Transformer in image analysis, in contrast to its traditional use for textual analysis. This architecture can capture long-range dependencies in input images and demonstrates significant parallelization potential, sometimes surpassing state-of-the-art architectures like Convolutional Neural Networks in both performance and efficiency. However, it should be noted that this architecture requires a substantial amount of data to be adequately trained, which is not always guaranteed in the medical field. In the context of this thesis, two architectures, namely Segmenter and SwinUNETR, will be employed to create models capable of addressing this challenge. The former is designed to analyze bi-dimensional RGB images, while the latter is specifically designed for the segmentation of 3D MRI scans. To address the limited data availability, regularization techniques, data augmentation, and transfer learning will be implemented. Thirteen models will be trained using a subset of the data provided in the 2019 edition of the BraTS Challenge. With 227 patient scans used for training, 49 for validation, and 59 for testing, the comparative analysis reveals that SwinUNETR is capable of providing more accurate and robust predictions, and also with less variability compared to Segmenter, which shows more heterogeneous results based on the pre-processing techniques applied to the training set. Furthermore, the results suggest that Transformer-based networks can challenge most of the state-of-the-art CNN-based algorithms addressing the same task.
CRESPI, LEONARDO
ING - Scuola di Ingegneria Industriale e dell'Informazione
19-dic-2023
2022/2023
Il glioma, o più in generale il tumore cerebrale, rappresenta una delle patologie più debilitanti e complesse da trattare. Nel corso degli anni, lo sviluppo di tecniche di imaging medico ha permesso diagnosi sempre più accurate. Di queste, una delle più utilizzate è la risonanza magnetica (MRI). La segmentazione delle regioni di un tumore costituisce una sfida complessa che richiede notevole esperienza nel settore ed è di vitale importanza per comprenderne la struttura e per valutare le azioni terapeutiche da intraprendere. Negli ultimi anni, sono state sviluppate diverse tecniche per assistere il personale medico in questo compito, in particolare metodologie basate su Deep Learning e AI. Contestualmente, si è osservato un aumento della popolarità del Transformer nell’analisi di immagini, in contrasto con il suo utilizzo tradizionale per l’analisi testuale. Questa architettura è in grado di catturare dipendenze a lungo raggio nelle immagini di input e mostra un notevole potenziale di parallelizzazione, superando sia in prestazioni che in efficienza le architetture dello stato dell’arte come le CNN. Tuttavia, va notato che questa architettura richiede una quantità sostanziale di dati per essere adeguatamente addestrata, il che non è sempre scontato nel campo medico. Nel contesto di questa tesi, saranno impiegate due architetture, denominate Segmenter e SwinUNETR, per creare modelli capaci di affrontare questa sfida. Il primo è progettato per analizzare immagini RGB bidimensionali, mentre il secondo è concepito specificatamente per la segmentazione di risonanze 3D. Per bilanciare la limitata disponibilità di dati, saranno implementate tecniche di regolarizzazione, data augmentation e transfer learning. Verranno addestrati 13 modelli utilizzando un sottoinsieme dei dati forniti nell’edizione del 2019 della BraTS Challenge. Con le risonanze di 227 pazienti impiegate per l’addestramento, di 49 pazienti per la validazione e 59 pazienti per il test dei risultati, l’analisi comparativa rivela che SwinUNETR è in grado di fornire previsioni più accurate, più robuste con una minore variabilità rispetto al Segmenter, il quale mostra risultati più eterogenei in base alle tecniche di pre-processing applicate al training set. Inoltre, i risultati suggeriscono che le reti basate su Transformer hanno il potenziale per superare gli algoritmi CNN all’avanguardia che affrontano la stessa sfida.
File allegati
File Dimensione Formato  
2023_12_Maitan_Executive_Summary_02.pdf

accessibile in internet per tutti

Descrizione: Executive summary
Dimensione 6.35 MB
Formato Adobe PDF
6.35 MB Adobe PDF Visualizza/Apri
2023_12_Maitan_Thesis_01.pdf

accessibile in internet per tutti

Descrizione: Tesi
Dimensione 28.42 MB
Formato Adobe PDF
28.42 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/215624