Machine learning prediction of pancreatic ductal adenocarcinoma progression using multi-regional radiomics and spatial features from pre-treatment CT images

Pancreatic ductal adenocarcinoma (PDAC) is an aggressive malignancy with poor prognosis, making early prediction of disease progression crucial for treatment planning. This study aimed to develop machine learning models capable of predicting PDAC progression using pre-treatment computed tompgraphy(CT) images and clinical data. As a preliminary step, segmentations of the tumor, pancreas, and vessels were performed using nnU-Net and TotalSegmentator to enable accurate feature extraction. A variety of feature combinations were evaluated, including handcrafted radiomics features extracted from the tumor, peritumoral tissue, and whole pancreas; spatial features describing tumor–vessel relationships (TEDA); and deep features derived from a pretrained ResNet model. Multiple classification algorithms were assessed using stratified 5-fold cross-validation, with Area Under the Curve (AUC) prioritized as the main evaluation metric and F1 score as a secondary measure. The results demonstrated that the combination of clinical data, intratumor radiomics, and TEDA yielded strong predictive performance, with the highest AUC of 0.81 achieved by a Support Vector Machine (SVM). Adding peritumoral or whole-pancreas radiomics features provided further improvements, while deep ResNet features consistently underperformed, likely due to their lack of task-specific fine-tuning. The study also highlighted several limitations, including a small sample size, missing imaging phases and progression labels, unvalidated automated segmentations, and inconsistencies in clinical data entries. Despite these challenges, the findings support the value of integrating multi-regional radiomics and spatial features with clinical data for PDAC progression modeling. Future research should focus on acquiring larger datasets with expert-annotated segmentations and standardized imaging protocols to enhance the reliability and generalizability of such predictive models.

Il carcinoma duttale pancreatico (PDAC) è una neoplasia aggressiva con prognosi sfavorevole, rendendo cruciale la previsione precoce della progressione della malattia per una pianificazione terapeutica efficace. Questo studio ha avuto l’obiettivo di sviluppare modelli di apprendimento automatico in grado di prevedere la progressione del PDAC utilizzando immagini TC, acquisite prima del trattamento, in combinazione con dati clinici. Come fase preliminare, sono state effettuate le segmentazioni del tumore, del pancreas e dei vasi sanguigni utilizzando nnU-Net e TotalSegmentator, al fine di consentire un’estrazione accurata delle caratteristiche. Sono state valutate diverse combinazioni di feature, tra cui caratteristiche radiomiche estratte manualmente dal tumore, dal tessuto peritumorale e dall’intero pancreas; feature spaziali che descrivono le relazioni tra tumore e vasi (TEDA); e feature profonde derivate da un modello ResNet pre-addestrato. Diversi algoritmi di classificazione sono stati valutati tramite una procedura di cross-validazione stratificata a 5 fold, utilizzando l’Area sotto la curva ROC (AUC) come metrica principale e l’F1-score come metrica secondaria per misurare l’equilibrio nella classificazione. I risultati hanno dimostrato che la combinazione di dati clinici, radiomica intratumorale e TEDA ha fornito prestazioni predittive elevate, con un’AUC massima pari a 0.81 ottenuta mediante Support Vector Machine (SVM). L’aggiunta di feature radiomiche peritumorali o dell’intero pancreas ha ulteriormente migliorato le performance, mentre le feature profonde estratte dal modello ResNet hanno mostrato prestazioni inferiori, probabilmente a causa della mancanza di un adattamento specifico al task. Lo studio ha inoltre evidenziato diverse limitazioni, tra cui la ridotta dimensione del campione, la mancanza di alcune fasi di imaging e di etichette di progressione, segmentazioni automatiche non validate e incongruenze nei dati clinici. Nonostante queste criticità, i risultati supportano l’efficacia dell’integrazione di caratteristiche radiomiche multi-regione e spaziali con dati clinici per la modellazione della progressione del PDAC. Futuri sviluppi dovrebbero concentrarsi sull’acquisizione di dataset più ampi e curati, con segmentazioni annotate da esperti e protocolli di imaging standardizzati, al fine di migliorare l’affidabilità e la generalizzabilità dei modelli predittivi sviluppati.