Negli ultimi anni si è registrato un aumento significativo della produzione di immagini biomedicali. Tuttavia, il personale clinico non è in grado di tenere il passo con l'analisi dei dati, con conseguenti ritardi nei trattamenti che possono ridurne l'efficacia. Inoltre, il tempo dedicato all'analisi di dati e immagini non consente al medico di svolgere altre importanti attività legate al caso clinico in corso. Per risolvere questi problemi, gli algoritmi automatici hanno dimostrato la possibilità di poter costruire una pipeline che fornisca risultati affidabili poco dopo il completamento del processo di acquisizione dei dati. Tra i vari compiti, l'analisi delle immagini, e in particolare la segmentazione semantica, un processo che mira a classificare ogni pixel dell'immagine in una classe specifica, richiede molto tempo per uno specialista. In determinati scenari è necessario analizzare decine, o addirittura centinaia di immagini, con processi ripetitivi che possono risentire della stanchezza umana, della distrazione e della variabilità tra analisi di diversi operatori, portando così a risultati non utilizzabili al di fuori dello specifico caso clinico in cui sono stati acquisiti i dati di partenza. Per questi motivi, la segmentazione delle immagini può trarre grande beneficio da approcci automatici. Tra questi algoritmi automatici, i modelli di Machine Learning (ML) e Deep Learning (DL) possono aprire la strada a pipeline di analisi dei dati standardizzate, veloci e affidabili per identificare lesioni, organi, tessuti specifici e ridurre il tempo per eseguire una diagnosi e, di conseguenza, per eseguire il trattamento. Tra tutti i metodi disponibili in letteratura, i modelli di DL rappresentano l'attuale stato dell'arte per la segmentazione delle immagini ed esiste una grande varietà di architetture che si dividono principalmente in 2D e 3D, ognuna con diversi punti di forza e limiti. Le architetture 2D sono generalmente più semplici e hanno meno requisiti in termini di hardware e capacità computazionale sia per lo sviluppo che per il loro utilizzo, mentre i modelli 3D, d'altro canto, hanno più vincoli ma possono sfruttare le informazioni spaziali di una tomografia computerizzata (CT) o di una risonanza magnetica (MRI), che possono risultare fondamentali per ottenere risultati da applicare in scenari reali. Pertanto, per sfruttare i vantaggi delle architetture 2D e 3D, questo lavoro di tesi propone la 2D Long Short-Term Memory U-Net (2D LSTM U-Net). Il modello combina le prestazioni di segmentazione delle architetture U-Net con le capacità di elaborazione delle sequenze delle celle LSTM, con l'obiettivo di sfruttare la natura sequenziale delle scansioni di immagini mediche per migliorare l'accuratezza della segmentazione. Il nuovo modello proposto è stato validato utilizzando due set di dati distinti: CT-ORG, che contiene varie scansioni CT con cinque diversi organi segmentati manualmente, e BraTS 2020, incentrato sulla segmentazione di tumori cerebrali da scansioni MRI multimodali. Il modello 2D LSTM U-Net è stato addestrato e validato su questi set di dati, dimostrando la sua capacità di gestire efficacemente sia la segmentazione anatomica in senso lato che quella patologica specifica. Il modello proposto raggiunge ottime prestazioni nel compito di segmentazione multiorgano e risultati comparabili nel compito di segmentazione tumorale rispetto a modelli 2D e 3D, mantenendo la complessità e le dimensioni del modello simili a quelle dei modelli 2D, ma con la cognizione spaziale delle architetture 3D. La tesi illustra la metodologia impiegata per implementare la nuova 2D LSTM U-Net, includendo il preprocessing dei dati, la configurazione del modello e i parametri utilizzati per l'addestramento. Presenta inoltre un confronto con la letteratura esistente, evidenziando i punti di forza del modello e le potenziali aree di miglioramento. I risultati indicano che il nuovo 2D LSTM U-Net rappresenta un solido avanzamento nella segmentazione delle immagini mediche, con margini di ampliamento e ottimizzazione.
In recent years, there has been a significant increase in medical imaging data production. However, clinical personnel is not able to keep up with data analysis, leading to delayed treatments that can reduce their effectiveness. In addition, the time spent in data analysis, do not allow the clinician to perform other important patient related tasks. To solve these issues, automatic algorithms have shown the possibility to help building a pipeline that provides reliable results shortly after the data acquisition process has been completed. Among the various tasks, image analysis, and in particular image segmentation, a process that aims to classify each image pixel into a specific class, is very time consuming for a clinical specialist. Tens, even hundreds, of images must be analyzed in certain scenarios, with repetitive processes that can suffer for human fatigue, distraction, and inter-operator variability, thus leading to results that cannot be used outside the specific clinical case in which the data have been acquired. Therefore, image segmentation can greatly benefit from automatic approaches. Among these automatic algorithms, Machine Learning (ML) and Deep Learning (DL) models can pave the way to standard, fast, and reliable data analysis pipelines to identify lesions, organs, specific tissues, and reduce the time-to-diagnosis and, therefore, the time-to-treatment. Among all the approaches available in literature, DL models are the current State of the Art for image segmentation and there is a great variety of architectures that mainly divide into 2D and 3D ones, each with different strengths and limitations. 2D architectures are generally simpler and have fewer requirements in terms of hardware and computational capability for both development and deployment, whereas 3D models, on the other hand, have more constraints but can exploit the spatial information of a Computed Tomography (CT) or a Magnetic Resonance Imaging (MRI) scan, which can be crucial to obtain predictions that has to be be applied in real life scenarios. Therefore, to exploit the benefits of both 2D and 3D architectures, this thesis work proposes the 2D Long Short-Term Memory U-Net (2D LSTM U-Net). It combines the segmentation performances of U-Net architectures with the sequence processing capabilities of LSTM cells, aiming to leverage the sequential nature of medical image scans for improved segmentation accuracy. The novel proposed model has been validated using two distinct datasets: CT-ORG, which contains various CT scans of the human body with labeled organs, and BraTS 2020, focusing on brain tumor segmentation from multimodal MRI scans. The 2D LSTM U-Net model is trained and validated on these datasets, demonstrating its ability to handle both broad anatomical segmentation and specific pathological segmentation tasks effectively. The proposed model achieves State of the Art performance in the multi-organ segmentation task and comparable results in the tumor segmentation task against both 2D and 3D models while keeping the model complexity and dimensions similar to 2D models but with the spatial awareness of 3D architectures.
Adding memory to medical image segmentation: a 2D U-Net-based approach
Berzoini, Raffaele
2022/2023
Abstract
Negli ultimi anni si è registrato un aumento significativo della produzione di immagini biomedicali. Tuttavia, il personale clinico non è in grado di tenere il passo con l'analisi dei dati, con conseguenti ritardi nei trattamenti che possono ridurne l'efficacia. Inoltre, il tempo dedicato all'analisi di dati e immagini non consente al medico di svolgere altre importanti attività legate al caso clinico in corso. Per risolvere questi problemi, gli algoritmi automatici hanno dimostrato la possibilità di poter costruire una pipeline che fornisca risultati affidabili poco dopo il completamento del processo di acquisizione dei dati. Tra i vari compiti, l'analisi delle immagini, e in particolare la segmentazione semantica, un processo che mira a classificare ogni pixel dell'immagine in una classe specifica, richiede molto tempo per uno specialista. In determinati scenari è necessario analizzare decine, o addirittura centinaia di immagini, con processi ripetitivi che possono risentire della stanchezza umana, della distrazione e della variabilità tra analisi di diversi operatori, portando così a risultati non utilizzabili al di fuori dello specifico caso clinico in cui sono stati acquisiti i dati di partenza. Per questi motivi, la segmentazione delle immagini può trarre grande beneficio da approcci automatici. Tra questi algoritmi automatici, i modelli di Machine Learning (ML) e Deep Learning (DL) possono aprire la strada a pipeline di analisi dei dati standardizzate, veloci e affidabili per identificare lesioni, organi, tessuti specifici e ridurre il tempo per eseguire una diagnosi e, di conseguenza, per eseguire il trattamento. Tra tutti i metodi disponibili in letteratura, i modelli di DL rappresentano l'attuale stato dell'arte per la segmentazione delle immagini ed esiste una grande varietà di architetture che si dividono principalmente in 2D e 3D, ognuna con diversi punti di forza e limiti. Le architetture 2D sono generalmente più semplici e hanno meno requisiti in termini di hardware e capacità computazionale sia per lo sviluppo che per il loro utilizzo, mentre i modelli 3D, d'altro canto, hanno più vincoli ma possono sfruttare le informazioni spaziali di una tomografia computerizzata (CT) o di una risonanza magnetica (MRI), che possono risultare fondamentali per ottenere risultati da applicare in scenari reali. Pertanto, per sfruttare i vantaggi delle architetture 2D e 3D, questo lavoro di tesi propone la 2D Long Short-Term Memory U-Net (2D LSTM U-Net). Il modello combina le prestazioni di segmentazione delle architetture U-Net con le capacità di elaborazione delle sequenze delle celle LSTM, con l'obiettivo di sfruttare la natura sequenziale delle scansioni di immagini mediche per migliorare l'accuratezza della segmentazione. Il nuovo modello proposto è stato validato utilizzando due set di dati distinti: CT-ORG, che contiene varie scansioni CT con cinque diversi organi segmentati manualmente, e BraTS 2020, incentrato sulla segmentazione di tumori cerebrali da scansioni MRI multimodali. Il modello 2D LSTM U-Net è stato addestrato e validato su questi set di dati, dimostrando la sua capacità di gestire efficacemente sia la segmentazione anatomica in senso lato che quella patologica specifica. Il modello proposto raggiunge ottime prestazioni nel compito di segmentazione multiorgano e risultati comparabili nel compito di segmentazione tumorale rispetto a modelli 2D e 3D, mantenendo la complessità e le dimensioni del modello simili a quelle dei modelli 2D, ma con la cognizione spaziale delle architetture 3D. La tesi illustra la metodologia impiegata per implementare la nuova 2D LSTM U-Net, includendo il preprocessing dei dati, la configurazione del modello e i parametri utilizzati per l'addestramento. Presenta inoltre un confronto con la letteratura esistente, evidenziando i punti di forza del modello e le potenziali aree di miglioramento. I risultati indicano che il nuovo 2D LSTM U-Net rappresenta un solido avanzamento nella segmentazione delle immagini mediche, con margini di ampliamento e ottimizzazione.File | Dimensione | Formato | |
---|---|---|---|
2024_04_Berzoini_Executive_Summary_02.pdf
accessibile in internet per tutti a partire dal 18/03/2027
Descrizione: executive summary
Dimensione
2.66 MB
Formato
Adobe PDF
|
2.66 MB | Adobe PDF | Visualizza/Apri |
2024_04_Berzoini_Tesi_01.pdf
accessibile in internet per tutti a partire dal 18/03/2027
Descrizione: testo tesi
Dimensione
8.36 MB
Formato
Adobe PDF
|
8.36 MB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/218140