Lung cancer remains one of the leading causes of cancer-related mortality, often due to late detection and delayed medical intervention. Low-dose Computed Tomography (LDCT) has proven to be a crucial tool in early diagnosis, yet the identification of malignant lung lesions still heavily relies on the experience of radiologists, leading to potential misdiagnoses. Deep learning has emerged as a powerful approach in medical imaging analysis, offering automated and accurate classification methods. In this study, a Vision Transformer (ViT)-based deep neural network is designed for lung cancer nodule classification. The proposed model is applied to the task of distinguishing benign and malignant lung nodules using LDCT images, with preprocessing techniques including automated segmentation via TotalSegmentator and lesion selection based on spatial location. Additionally, the model is provided not only with the LDCT image itself but also with metadata regarding the scanner that acquired the image, allowing it to incorporate imaging characteristics that may influence classification performance. The model is trained from scratch and evaluated on the NLST dataset with 17 different configurations of hyperparameters. Experimental results demonstrate that the proposed ViT network achieves performance consistent with ViT trained-from-scratch on biomedical images models. It reaches a maximum accuracy of 63%, highlighting the need for a transfer learning approach and an enlargement of the dataset, due to the high number of trainable parameters of the ViTs.

Il tumore al polmone rimane una delle principali cause di mortalità legata al cancro, spesso a causa della diagnosi tardiva e dell’intervento medico ritardato. La Tomografia Computerizzata (CT) si è dimostrata uno strumento cruciale per la diagnosi precoce, ma l’identificazione delle lesioni polmonari maligne dipende ancora fortemente dall’esperienza dei radiologi, con il rischio di possibili errori diagnostici. Il deep learning è emerso come un approccio potente nell’analisi delle immagini mediche, offrendo metodi di classificazione automatizzati e accurati. In questo studio, è stata progettata una rete neurale profonda basata su Vision Transformer (ViT) per la classificazione di noduli polmonari. Il modello proposto viene applicato al compito di distinguere i noduli polmonari benigni da quelli maligni utilizzando immagini CT a basso dosaggio, con tecniche di pre-elaborazione che includono la segmentazione automatizzata tramite TotalSegmentator e la selezione delle lesioni basata sulla posizione spaziale. Inoltre, al modello non viene fornita solo l’immagine LDCT, ma anche i metadati relativi allo scanner che ha acquisito l’immagine, permettendogli di considerare caratteristiche dell’acquisizione che potrebbero influenzare le prestazioni della classificazione. Il modello è stato addestrato da zero e valutato sul dataset NLST con 17 diverse configurazioni di iperparametri. I risultati sperimentali dimostrano che la rete ViT proposta raggiunge prestazioni coerenti con i modelli ViT addestrati da zero su immagini biomediche, ottenendo una precisione massima del 63%. Questi risultati evidenziano la necessità di un approccio basato sul transfer learning e di un ampliamento del dataset, data l’elevata quantità di parametri nei ViTs.

Preliminary analysis of a scanner-conditioned vision transformer for lung nodule classification from low-dose CT scans

Prati, Maria
2023/2024

Abstract

Lung cancer remains one of the leading causes of cancer-related mortality, often due to late detection and delayed medical intervention. Low-dose Computed Tomography (LDCT) has proven to be a crucial tool in early diagnosis, yet the identification of malignant lung lesions still heavily relies on the experience of radiologists, leading to potential misdiagnoses. Deep learning has emerged as a powerful approach in medical imaging analysis, offering automated and accurate classification methods. In this study, a Vision Transformer (ViT)-based deep neural network is designed for lung cancer nodule classification. The proposed model is applied to the task of distinguishing benign and malignant lung nodules using LDCT images, with preprocessing techniques including automated segmentation via TotalSegmentator and lesion selection based on spatial location. Additionally, the model is provided not only with the LDCT image itself but also with metadata regarding the scanner that acquired the image, allowing it to incorporate imaging characteristics that may influence classification performance. The model is trained from scratch and evaluated on the NLST dataset with 17 different configurations of hyperparameters. Experimental results demonstrate that the proposed ViT network achieves performance consistent with ViT trained-from-scratch on biomedical images models. It reaches a maximum accuracy of 63%, highlighting the need for a transfer learning approach and an enlargement of the dataset, due to the high number of trainable parameters of the ViTs.
CAMAGNI, FRANCESCA
ING - Scuola di Ingegneria Industriale e dell'Informazione
3-apr-2025
2023/2024
Il tumore al polmone rimane una delle principali cause di mortalità legata al cancro, spesso a causa della diagnosi tardiva e dell’intervento medico ritardato. La Tomografia Computerizzata (CT) si è dimostrata uno strumento cruciale per la diagnosi precoce, ma l’identificazione delle lesioni polmonari maligne dipende ancora fortemente dall’esperienza dei radiologi, con il rischio di possibili errori diagnostici. Il deep learning è emerso come un approccio potente nell’analisi delle immagini mediche, offrendo metodi di classificazione automatizzati e accurati. In questo studio, è stata progettata una rete neurale profonda basata su Vision Transformer (ViT) per la classificazione di noduli polmonari. Il modello proposto viene applicato al compito di distinguere i noduli polmonari benigni da quelli maligni utilizzando immagini CT a basso dosaggio, con tecniche di pre-elaborazione che includono la segmentazione automatizzata tramite TotalSegmentator e la selezione delle lesioni basata sulla posizione spaziale. Inoltre, al modello non viene fornita solo l’immagine LDCT, ma anche i metadati relativi allo scanner che ha acquisito l’immagine, permettendogli di considerare caratteristiche dell’acquisizione che potrebbero influenzare le prestazioni della classificazione. Il modello è stato addestrato da zero e valutato sul dataset NLST con 17 diverse configurazioni di iperparametri. I risultati sperimentali dimostrano che la rete ViT proposta raggiunge prestazioni coerenti con i modelli ViT addestrati da zero su immagini biomediche, ottenendo una precisione massima del 63%. Questi risultati evidenziano la necessità di un approccio basato sul transfer learning e di un ampliamento del dataset, data l’elevata quantità di parametri nei ViTs.
File allegati
File Dimensione Formato  
Tesi_Prati_2025.pdf

non accessibile

Dimensione 8.15 MB
Formato Adobe PDF
8.15 MB Adobe PDF   Visualizza/Apri
ExecutiveSummary_Prati_2025.pdf

non accessibile

Dimensione 1.61 MB
Formato Adobe PDF
1.61 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/234845