Multinomial classification and feature selection techniques on radiomic data

In recent years, the employment of machine learning algorithms in medicine has been radically transforming the approach to diagnosis and treatment of oncological diseases. In particular, through the analysis of biomarkers, these state-of-the-art techniques assist physicians in the identification and early diagnosis of the tumor, prognosis and treatment planning. The primary goal of this work is to develop, validate and compare classification methods that leverage radiomic features extracted from medical imaging data, such as PET and CT scans. Moreover, since radiomic data suffer from high correlation, it is necessary to investigate which methods of feature selection and dimensionality reduction are best suited for addressing this issue. The methodology is validated on radiomic features extracted from individual lesions in PET-CT scans obtained from the University Hospital Tübingen. Given the hierarchical structure of the data - multiple lesions nested within individual patients - mixed-effects models were also explored, to account for intra-patient correlation, with patient identification as a random effect. However, this approach presented substantial issues, primarily due to the lack of intra-cluster variability. Overall, all classifiers achieved comparable performance, suggesting that the predictive power resides primarily in the feature space rather than in the choice of the classification algorithm or of the dimensionality reduction technique.

Negli ultimi anni, l’impiego di algoritmi di machine learning in ambito medico ha trasformato radicalmente l’approccio alla diagnosi e al trattamento delle patologie oncologiche. In particolare, attraverso l’analisi di biomarcatori, tali metodi supportano i clinici nell’identificazione e nella diagnosi precoce dei tumori, nonché nella formulazione della prognosi e nella pianificazione terapeutica. L’obiettivo principale di questa tesi è sviluppare, testare e comparare vari metodi di classificazione che sfruttino caratteristiche radiomiche estratte da immagini mediche, quali scansioni PET e CT. Inoltre, poiché i dati radiomici presentano elevati livelli di correlazione, si rende necessario indagare quali metodi di selezione delle variabili e di riduzione della dimensionalità risultino più adeguati ad affrontare tale problematica. La metodologia è stata validata sulla radiomica estratta da singole lesioni presenti in scansioni PET-CT provenienti dall’Ospedale Universitario di Tübingen. Infine, considerata la struttura gerarchica dei dati — con più lesioni appartenenti a un medesimo paziente — sono stati esplorati modelli a effetti misti allo scopo di tenere conto della correlazione intra-paziente, trattando l’identificativo del paziente come effetto casuale. Tuttavia, tale approccio ha evidenziato criticità significative, dovute principalmente alla scarsa variabilità intra-cluster. Complessivamente, tutti i metodi di classificazione hanno riportato prestazioni comparabili, suggerendo che il potere predittivo risieda principalmente nel feature space piuttosto che nella scelta dell’algoritmo di classificazione o della tecnica di riduzione dimensionale.