Radiomics is a new field of medical image analysis consisting in the extraction of a large quantity of features from non-invasive medical imaging. When performing radiomic features extraction on multiparametric magnetic resonance imaging (MRI), there is the possibility to have missing information since there are not defined protocols at hospitals to acquire data, and the MRI sequences acquired may vary among centers. Statistical methods to impute missing data exist, but it is not clear which method could be best for a radiomic application. The main objective of this thesis was to compare different imputation methods in terms of accuracy and time of imputation. An initial dataset of 185 patients with affected by nasopharyngeal carcinoma was used for this thesis. Each patient had imaging available, with at least one of the following MRI sequences available: pre- and post-contrast T1-weighted (T1w) images; T2-weighted (T2) images; apparent diffusion coefficient (ADC) maps. Manually segmented regions of interest (ROI), representing the main tumor (T) and lymphnode (N) were used to extract the radiomic features. For each combination of image type, 536 different radiomic features were computed, for a total of 4288 features, but only but only the 2144 were considered for the analysis. Initially the information was represented in a matrix of 185 rows (representing the observations or patients) and 2144 columns (representing the radiomic features). However, in order to have a complete matrix to be used as a gold standard, the patients with missing data were removed, reducing the number to 115. From such matrices, derived matrices with missing columns for post-contrast T1w and ADC were generated using different level of missingness (1, 5, 10, 20, 30, 40 and 50%). For each level of missingness, 10 matrices with random missing data were generated. Having a new matrix of 115 x 2144 elements with missing information, we could apply different methods 6 different imputation methods. Imputation was performed on two sets of matrices, without and with normalization process (z-score was used). After the process of imputation, the performance of each method was assessed by root mean square error (NRMSE) and time of imputation. In reference to the first one, the comparison was between the values given by the imputation methods and the values of the original matrix. Friedman tests with post-hoc comparisons were used to detect significant differences in the errors obtained with the different methods. As for the second one, it was evaluated the dependence of time with the level of missing information. All the metrics were compared amongst the used methods in two different groups the normalized and non-normalized. The results showed that the simple methods of imputation are the optimal trade-off between accuracy and time of imputation, especially for high levels of missingness. However, the decision to choose a method will be strongly linked to our priority that can be defined in terms of either time or accuracy or both.

La radiomica è un nuovo campo di analisi di immagini mediche che consiste nell'estrazione di una grande quantità di funzioni dall'imaging medico non invasivo. Quando si esegue l'estrazione di caratteristiche radiomiche sull'imaging a risonanza magnetica multiparametrica (MRI), esiste la possibilità di avere informazioni mancanti poiché non ci sono protocolli definiti negli ospedali per acquisire dati e le sequenze di MRI acquisite possono variare tra i centri. Esistono metodi statistici per imputare i dati mancanti, ma non è chiaro quale sia il metodo migliore per un'applicazione radiomica. L'obiettivo principale di questa tesi era di confrontare diversi metodi di imputazione in termini di accuratezza e tempo di imputazione. Per questa tesi è stato utilizzato un set di dati iniziale di 185 pazienti con carcinoma rinofaringeo. Ogni paziente disponeva di imaging, con almeno una delle seguenti sequenze di risonanza magnetica disponibili: immagini pre-e post-contrasto pesate in T1 (T1w); Immagini pesate in T2 (T2); mappe del coefficiente di diffusione apparente (ADC). Le regioni di interesse segmentate manualmente (ROI), che rappresentano il tumore principale (T) e il linfonodo (N) sono state utilizzate per estrarre le caratteristiche radiomiche. Per ogni combinazione di tipo di immagine, sono state calcolate 536 differenti caratteristiche radiomiche, per un totale di 4288 caratteristiche, ma solo ma 2144 sono state considerate per l'analisi. Inizialmente le informazioni erano rappresentate in una matrice di 185 file (che rappresentano le osservazioni o i pazienti) e 2144 colonne (che rappresentano le caratteristiche radiomiche). Tuttavia, al fine di avere una matrice completa da utilizzare come gold standard, i pazienti con dati mancanti sono stati rimossi, riducendo il numero a 115. Da tali matrici, sono state generate matrici derivate con colonne mancanti per T1w post-contrasto e ADC usando diverso livello di mancanza (1, 5, 10, 20, 30, 40 e 50%). Per ogni livello di mancanza, sono state generate 10 matrici con dati mancanti casuali. Avendo una nuova matrice di 115 x 2144 elementi con informazioni mancanti, potremmo applicare diversi metodi 6 diversi metodi di imputazione. L'imputazione è stata eseguita su due set di matrici, senza e con il processo di normalizzazione (è stato utilizzato il punteggio z). Dopo il processo di imputazione, le prestazioni di ciascun metodo sono state valutate dall'errore quadratico medio radice (NRMSE) e dal tempo di imputazione. In riferimento al primo, il confronto è stato tra i valori dati dai metodi di imputazione e i valori della matrice originale. I test di Friedman con confronti post-hoc sono stati utilizzati per rilevare differenze significative negli errori ottenuti con i diversi metodi. Per quanto riguarda il secondo, è stata valutata la dipendenza del tempo con il livello di informazioni mancanti. Tutte le metriche sono state confrontate tra i metodi utilizzati in due diversi gruppi normalizzati e non normalizzati. I risultati hanno mostrato che i semplici metodi di imputazione sono il compromesso ottimale tra precisione e tempo di imputazione, specialmente per alti livelli di mancanza. Tuttavia, la decisione di scegliere un metodo sarà fortemente legata alla nostra priorità che può essere definita in termini di tempo, precisione o entrambi.

Comparison of statistical methods for missing data imputation in MIR-radiomics

PINEDO TAQUIA, JAIRO
2019/2020

Abstract

Radiomics is a new field of medical image analysis consisting in the extraction of a large quantity of features from non-invasive medical imaging. When performing radiomic features extraction on multiparametric magnetic resonance imaging (MRI), there is the possibility to have missing information since there are not defined protocols at hospitals to acquire data, and the MRI sequences acquired may vary among centers. Statistical methods to impute missing data exist, but it is not clear which method could be best for a radiomic application. The main objective of this thesis was to compare different imputation methods in terms of accuracy and time of imputation. An initial dataset of 185 patients with affected by nasopharyngeal carcinoma was used for this thesis. Each patient had imaging available, with at least one of the following MRI sequences available: pre- and post-contrast T1-weighted (T1w) images; T2-weighted (T2) images; apparent diffusion coefficient (ADC) maps. Manually segmented regions of interest (ROI), representing the main tumor (T) and lymphnode (N) were used to extract the radiomic features. For each combination of image type, 536 different radiomic features were computed, for a total of 4288 features, but only but only the 2144 were considered for the analysis. Initially the information was represented in a matrix of 185 rows (representing the observations or patients) and 2144 columns (representing the radiomic features). However, in order to have a complete matrix to be used as a gold standard, the patients with missing data were removed, reducing the number to 115. From such matrices, derived matrices with missing columns for post-contrast T1w and ADC were generated using different level of missingness (1, 5, 10, 20, 30, 40 and 50%). For each level of missingness, 10 matrices with random missing data were generated. Having a new matrix of 115 x 2144 elements with missing information, we could apply different methods 6 different imputation methods. Imputation was performed on two sets of matrices, without and with normalization process (z-score was used). After the process of imputation, the performance of each method was assessed by root mean square error (NRMSE) and time of imputation. In reference to the first one, the comparison was between the values given by the imputation methods and the values of the original matrix. Friedman tests with post-hoc comparisons were used to detect significant differences in the errors obtained with the different methods. As for the second one, it was evaluated the dependence of time with the level of missing information. All the metrics were compared amongst the used methods in two different groups the normalized and non-normalized. The results showed that the simple methods of imputation are the optimal trade-off between accuracy and time of imputation, especially for high levels of missingness. However, the decision to choose a method will be strongly linked to our priority that can be defined in terms of either time or accuracy or both.
BOLOGNA, MARCO
ING - Scuola di Ingegneria Industriale e dell'Informazione
29-apr-2020
2019/2020
La radiomica è un nuovo campo di analisi di immagini mediche che consiste nell'estrazione di una grande quantità di funzioni dall'imaging medico non invasivo. Quando si esegue l'estrazione di caratteristiche radiomiche sull'imaging a risonanza magnetica multiparametrica (MRI), esiste la possibilità di avere informazioni mancanti poiché non ci sono protocolli definiti negli ospedali per acquisire dati e le sequenze di MRI acquisite possono variare tra i centri. Esistono metodi statistici per imputare i dati mancanti, ma non è chiaro quale sia il metodo migliore per un'applicazione radiomica. L'obiettivo principale di questa tesi era di confrontare diversi metodi di imputazione in termini di accuratezza e tempo di imputazione. Per questa tesi è stato utilizzato un set di dati iniziale di 185 pazienti con carcinoma rinofaringeo. Ogni paziente disponeva di imaging, con almeno una delle seguenti sequenze di risonanza magnetica disponibili: immagini pre-e post-contrasto pesate in T1 (T1w); Immagini pesate in T2 (T2); mappe del coefficiente di diffusione apparente (ADC). Le regioni di interesse segmentate manualmente (ROI), che rappresentano il tumore principale (T) e il linfonodo (N) sono state utilizzate per estrarre le caratteristiche radiomiche. Per ogni combinazione di tipo di immagine, sono state calcolate 536 differenti caratteristiche radiomiche, per un totale di 4288 caratteristiche, ma solo ma 2144 sono state considerate per l'analisi. Inizialmente le informazioni erano rappresentate in una matrice di 185 file (che rappresentano le osservazioni o i pazienti) e 2144 colonne (che rappresentano le caratteristiche radiomiche). Tuttavia, al fine di avere una matrice completa da utilizzare come gold standard, i pazienti con dati mancanti sono stati rimossi, riducendo il numero a 115. Da tali matrici, sono state generate matrici derivate con colonne mancanti per T1w post-contrasto e ADC usando diverso livello di mancanza (1, 5, 10, 20, 30, 40 e 50%). Per ogni livello di mancanza, sono state generate 10 matrici con dati mancanti casuali. Avendo una nuova matrice di 115 x 2144 elementi con informazioni mancanti, potremmo applicare diversi metodi 6 diversi metodi di imputazione. L'imputazione è stata eseguita su due set di matrici, senza e con il processo di normalizzazione (è stato utilizzato il punteggio z). Dopo il processo di imputazione, le prestazioni di ciascun metodo sono state valutate dall'errore quadratico medio radice (NRMSE) e dal tempo di imputazione. In riferimento al primo, il confronto è stato tra i valori dati dai metodi di imputazione e i valori della matrice originale. I test di Friedman con confronti post-hoc sono stati utilizzati per rilevare differenze significative negli errori ottenuti con i diversi metodi. Per quanto riguarda il secondo, è stata valutata la dipendenza del tempo con il livello di informazioni mancanti. Tutte le metriche sono state confrontate tra i metodi utilizzati in due diversi gruppi normalizzati e non normalizzati. I risultati hanno mostrato che i semplici metodi di imputazione sono il compromesso ottimale tra precisione e tempo di imputazione, specialmente per alti livelli di mancanza. Tuttavia, la decisione di scegliere un metodo sarà fortemente legata alla nostra priorità che può essere definita in termini di tempo, precisione o entrambi.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
2020_04_Pinedo_Taquia_Jairo.pdf

accessibile in internet per tutti

Descrizione: Thesis
Dimensione 2 MB
Formato Adobe PDF
2 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/154564