BACKGROUND – The increasing availability of brain imaging data from different studies of aging population offers statistical power and great opportunities to build robust models in age-related pathologies. An important field is the prediction of imaging-derived risk scores for neurodegenerative diseases and cognitive impairment. However, variations in data properties across imaging protocols, used scanner, and populations can severely limit our ability to combine datasets. White matter hyperintensities (WMHs) are gaining more and more relevance as a marker of potential brain damage in asymptomatic aging, but also in non-aged patients with several neurological and vascular disorders. WMHs are assessed both by MRI and CT. The superior contrast of the former is recognised; however, harmonisation limits are given by the well-known difficulties in scanner-independent MRI calibration. AIMS – In this context, our project aims to harmonise imaging-derived measures of WMH, across two large DPUK (Dementia Platform UK) datasets: Whitehall (Whll) and UK Biobank (BB). Namely, the percent of WMHs volume vs. the brain volume, WMH%, was considered. Whll represents a multi-centre study gathering data from a single population, acquired with the same acquisition protocol but exploiting two different MRI scanners (SC1 and SC2) to derive the imaging data. BB includes data from a different population, imaged using a third scanner and a different acquisition protocol. For this reason, we divided our work in two separate parts: 1) a retrospective harmonisation across scanners (Whll SC1 vs Whll SC2), added to the pre-existing prospective one, offered by the Whll study design; 2) a fully retrospective harmonisation process, challenging the integration of dataset belonging to significantly heterogeneous populations (Whll and BB). METHODS – As to imaging data, we exploited an automatic tool (BIANCA), based on k nearest neighbour (k-NN) machine learning, to perform lesion segmentation and we assessed the influence on harmonisation of five main analysis parameters: (i) rater who generated the manual masks used as ground truth for the tool training phase; (ii) biasfield correction of the RF field inhomogeneities affecting images; (iii) different training dataset used (study specific vs mixed); (iv) Functional Anisotropy (FA) availability; and (v) difference in the thresholding method (global or locally adapted). On the other hand, for the non-imaging variables, we started harmonising all the ones involved in our study through the creation of a specific pipeline for format conversion. We then created a mathematical model, able to predict the WMH% starting from the integrated non-imaging data. This helped us accounting for: i) the variability related to demographic and clinical characteristics of the individuals; ii) to evaluate the relationship between WMH% and their majors risk factors; and iii) to assess harmonisation on the whole non-annotated cohorts, when the predictive influence of the used scanner was lowered or even negligible. RESULTS – Firstly, we found a protocol able to harmonise WMH measures across datasets, comprising the following parameters: (i) expert rater to perform the manual labelling phase (ii) biasfield correction of the RF field inhomogeneities (iii) use of a mixed training set, combining information from all of the datasets involved in our analysis (iv) Functional Anisotropy (FA) excluded from the MRI training features and (v) use of global thresholding method (0.9) to binarise results. Moreover, we managed to implement a specific pipeline (Parser) for the harmonisation of the non-imaging variables involved in our study, that is actually available online on the GitLab Platform. In this context, we fitted an Elastic Net model for WMH% prediction from non-imaging data calibrated on the imaging WMH% derived by the optimal settings we defined. This was a valid support to derive the relative importance of the non-imaging variables, used scanner included. Finally, we tested a Gaussian Process regression of WMH% on the non-imaging data. This non-linear predictor was compared to Elastic Net, as the best performing linear predictor. The resulting performance, in terms of correlation between actual and predicted value, was close to 0.4, comparable with Elastic Net. CONCLUSION – Our findings attested the existence of a general set of parameters, able to derive comparable WMH% measures across datasets, in the context of automatic lesion segmentation. These results, along with the non-imaging data integration, proved the accomplishment of a robust harmonisation on the different datasets involved in our study, that were finally well combined and compatible. The fair heterogeneity of the addressed datasets permits to foresee a wider extension of our harmonisation approach to further datasets.

CONTESTO – Il recente aumento nella disponibilità dei dati di neuro-imaging, provenienti da diversi studi relativi all’invecchiamento della popolazione, offre una notevole potenza statistica e rappresenta pertanto una buona opportunità per la costruzione di modelli matematici robusti in grado di descrivere le patologie correlate all'età. In questo contesto, un aspetto importante è rappresentato dalla predizione degli score di rischio per le malattie neurologiche e i disturbi cognitivi, derivati a partire dai dati di imaging. Tuttavia, le variazioni nelle proprietà di questi ultimi, dovute a differenze nei protocolli di acquisizione, nei centri clinici di riferimento e nelle popolazioni coinvolte, possono limitare notevolmente la capacità di combinare ed integrare tra loro set di dati diversi. Le iperintensità della materia bianca (White Matter Hyperintensities, WMH) stanno acquisendo sempre maggiore importanza come indicatori clinici di potenziali danni neurologici, sia nel contesto dell’invecchiamento asintomatico, che in relazione a pazienti che, seppure in giovane età, sono affetti da diversi disturbi neurodegenerativi e vascolari. Le WMH vengono generalmente valutate mediante risonanza magnetica nucleare (MRI) o TAC ma il miglior contrasto del primo rispetto al secondo ha portato alla scelta dell’MRI come tecnica standard per la visualizzazione delle lesioni in questione. Tuttavia, le ben note difficoltà relative al processo di calibrazione delle immagini di risonanza magnetica determinano notevoli limiti nel processo di armonizzazione dei dati acquisiti. OBIETTIVI – In questo contesto, il nostro progetto mira ad una armonizzazione delle misure di WMH ottenute a partire dai dati di imaging relativi a due grandi dataset DPUK (Dementia Platform UK): Whitehall (Whll) e UK Biobank (BB). Whll rappresenta uno studio multicentrico che da riferimento ad una singola popolazione, acquisita con lo stesso protocollo ma mediante l’utilizzo di due scanner diversi (SC1 e SC2). BB include, invece, dati provenienti da una popolazione diversa, acquisiti utilizzando un terzo scanner e un protocollo di imaging differente rispetto a quello menzionato in precedenza. Pertanto, il nostro lavoro è stato diviso in due parti distinte: 1) un processo di armonizzazione retrospettiva tra i due scanner presenti in Whll (Whll SC1 e Whll SC2), che si aggiunge ad una preesistente fase di armonizzazione prospettica, intrinseca allo studio di popolazione in questione; 2) un processo di armonizzazione retrospettiva, che mira all'integrazione di dati appartenenti a popolazioni significativamente eterogenee (Whll vs BB). Per quanto riguarda i dati di imaging, abbiamo sfruttato un tool automatico (BIANCA) per eseguire la segmentazione delle lesioni di interesse e abbiamo cercato di valutare l'influenza di cinque diversi parametri sulla sua performance finale: (i) rater che ha generato le maschere manuali utilizzate come riferimento per la fase di training (ii) correzione delle disomogeneità nel campo a radiofrequenze (RF) che caratterizza le immagini di risonanza magnetica nucleare (iii) differenza nel gruppo di soggetti utilizzati per il training (study specific/single vs mixed) (iv) presenza della Fractional Anisotropy (FA) tra le features utilizzate e (v) differenza nel metodo di thresholding applicato all’output ottenuto (globale o locale). Per quanto riguarda le variabili di non imaging, abbiamo cercato di armonizzare tutte quelle coinvolte nella nostra analisi, attraverso la creazione di una specifica pipeline per la conversione dei format. Abbiamo poi creato un modello matematico, in grado di prevedere il volume di WMH a partire dai dati di non-imaging, perfettamente integrati tra loro (pressione sanguigna, BMI, test cognitivi, ecc.). Questo ci ha permesso di prendere in considerazione la variabilità dovuta alle caratteristiche demografiche e cliniche degli individui e, inoltre, a valutare il rapporto tra le WMH e i loro principali fattori di rischio. RISULTATI – Innanzitutto abbiamo delineato un protocollo in grado di ottenere misure di WMH comparabili tra i diversi dataset a disposizione. Esso si compone di una serie di parametri che vengono di seguito elencati: (i) utilizzo di un rater esperto per la fase di segmentazione manuale (ii) correzione del biasfield presente nelle immagini (iii) uso di un training set misto, che combina informazioni provenienti da tutti i dataset coinvolti nella nostra analisi (iv) Fractional Anisotropy (FA) esclusa dalle features di training e (v) uso di un metodo di thresholding globale (0.9) per sogliare i risultati ottenuti. Successivamente, è stata implementata una pipeline (Parser) specifica per l'armonizzazione delle variabili di non-imaging coinvolte nel nostro studio, che è attualmente disponibile online sulla piattaforma GitLab. In questo contesto, abbiamo inoltre costruito un modello chiamato Elastic Net e lo abbiamo testato sui dati ricavati dai vari step di ricerca dei parametri ottimali, ottenendo così un valido supporto per il calcolo dell’importanza delle rispettive variabili di non-imaging. Infine, ci siamo serviti di un regressore gaussiano (Gaussian Process regressor) per la creazione di un modello di predizione generale, in grado di stimare il volume di lesioni cerebrali da cui è affetto un paziente, indipendentemente dalla coorte di dati alla quale appartiene. La performance ottenuta, in termini di correlazione tra il valore attuale e quello predetto, è circa pari a 0.4. CONCLUSIONI – I dati ottenuti dimostrano l'esistenza di un protocollo generale, in grado di ottenere misure di WMH comparabili tra i diversi dataset a disposizione, nel contesto della segmentazione automatica di lesioni. Tali risultati, insieme al processo di integrazione delle variabili di non-imaging, attestano il raggiungimento di un significativo effetto di armonizzazione sui diversi insiemi di dati coinvolti nella nostra analisi, che risultano finalmente ben integrati e compatibili. La significativa ed evidente eterogeneità che caratterizzava i dataset di partenza consente inoltre di prevedere un'applicazione su vasta scala dell’approccio integrativo da noi sviluppato.

Harmonizing large-scale imaging databases to provide integrated assessments of the role of white matter hyperintensities in cognitive aging

BORDIN, VALENTINA;BERTANI, ILARIA
2018/2019

Abstract

BACKGROUND – The increasing availability of brain imaging data from different studies of aging population offers statistical power and great opportunities to build robust models in age-related pathologies. An important field is the prediction of imaging-derived risk scores for neurodegenerative diseases and cognitive impairment. However, variations in data properties across imaging protocols, used scanner, and populations can severely limit our ability to combine datasets. White matter hyperintensities (WMHs) are gaining more and more relevance as a marker of potential brain damage in asymptomatic aging, but also in non-aged patients with several neurological and vascular disorders. WMHs are assessed both by MRI and CT. The superior contrast of the former is recognised; however, harmonisation limits are given by the well-known difficulties in scanner-independent MRI calibration. AIMS – In this context, our project aims to harmonise imaging-derived measures of WMH, across two large DPUK (Dementia Platform UK) datasets: Whitehall (Whll) and UK Biobank (BB). Namely, the percent of WMHs volume vs. the brain volume, WMH%, was considered. Whll represents a multi-centre study gathering data from a single population, acquired with the same acquisition protocol but exploiting two different MRI scanners (SC1 and SC2) to derive the imaging data. BB includes data from a different population, imaged using a third scanner and a different acquisition protocol. For this reason, we divided our work in two separate parts: 1) a retrospective harmonisation across scanners (Whll SC1 vs Whll SC2), added to the pre-existing prospective one, offered by the Whll study design; 2) a fully retrospective harmonisation process, challenging the integration of dataset belonging to significantly heterogeneous populations (Whll and BB). METHODS – As to imaging data, we exploited an automatic tool (BIANCA), based on k nearest neighbour (k-NN) machine learning, to perform lesion segmentation and we assessed the influence on harmonisation of five main analysis parameters: (i) rater who generated the manual masks used as ground truth for the tool training phase; (ii) biasfield correction of the RF field inhomogeneities affecting images; (iii) different training dataset used (study specific vs mixed); (iv) Functional Anisotropy (FA) availability; and (v) difference in the thresholding method (global or locally adapted). On the other hand, for the non-imaging variables, we started harmonising all the ones involved in our study through the creation of a specific pipeline for format conversion. We then created a mathematical model, able to predict the WMH% starting from the integrated non-imaging data. This helped us accounting for: i) the variability related to demographic and clinical characteristics of the individuals; ii) to evaluate the relationship between WMH% and their majors risk factors; and iii) to assess harmonisation on the whole non-annotated cohorts, when the predictive influence of the used scanner was lowered or even negligible. RESULTS – Firstly, we found a protocol able to harmonise WMH measures across datasets, comprising the following parameters: (i) expert rater to perform the manual labelling phase (ii) biasfield correction of the RF field inhomogeneities (iii) use of a mixed training set, combining information from all of the datasets involved in our analysis (iv) Functional Anisotropy (FA) excluded from the MRI training features and (v) use of global thresholding method (0.9) to binarise results. Moreover, we managed to implement a specific pipeline (Parser) for the harmonisation of the non-imaging variables involved in our study, that is actually available online on the GitLab Platform. In this context, we fitted an Elastic Net model for WMH% prediction from non-imaging data calibrated on the imaging WMH% derived by the optimal settings we defined. This was a valid support to derive the relative importance of the non-imaging variables, used scanner included. Finally, we tested a Gaussian Process regression of WMH% on the non-imaging data. This non-linear predictor was compared to Elastic Net, as the best performing linear predictor. The resulting performance, in terms of correlation between actual and predicted value, was close to 0.4, comparable with Elastic Net. CONCLUSION – Our findings attested the existence of a general set of parameters, able to derive comparable WMH% measures across datasets, in the context of automatic lesion segmentation. These results, along with the non-imaging data integration, proved the accomplishment of a robust harmonisation on the different datasets involved in our study, that were finally well combined and compatible. The fair heterogeneity of the addressed datasets permits to foresee a wider extension of our harmonisation approach to further datasets.
DUFF, EUGENE
GRIFFANTI, LUDOVICA
LAGANA', MARCELLA
ING - Scuola di Ingegneria Industriale e dell'Informazione
18-dic-2019
2018/2019
CONTESTO – Il recente aumento nella disponibilità dei dati di neuro-imaging, provenienti da diversi studi relativi all’invecchiamento della popolazione, offre una notevole potenza statistica e rappresenta pertanto una buona opportunità per la costruzione di modelli matematici robusti in grado di descrivere le patologie correlate all'età. In questo contesto, un aspetto importante è rappresentato dalla predizione degli score di rischio per le malattie neurologiche e i disturbi cognitivi, derivati a partire dai dati di imaging. Tuttavia, le variazioni nelle proprietà di questi ultimi, dovute a differenze nei protocolli di acquisizione, nei centri clinici di riferimento e nelle popolazioni coinvolte, possono limitare notevolmente la capacità di combinare ed integrare tra loro set di dati diversi. Le iperintensità della materia bianca (White Matter Hyperintensities, WMH) stanno acquisendo sempre maggiore importanza come indicatori clinici di potenziali danni neurologici, sia nel contesto dell’invecchiamento asintomatico, che in relazione a pazienti che, seppure in giovane età, sono affetti da diversi disturbi neurodegenerativi e vascolari. Le WMH vengono generalmente valutate mediante risonanza magnetica nucleare (MRI) o TAC ma il miglior contrasto del primo rispetto al secondo ha portato alla scelta dell’MRI come tecnica standard per la visualizzazione delle lesioni in questione. Tuttavia, le ben note difficoltà relative al processo di calibrazione delle immagini di risonanza magnetica determinano notevoli limiti nel processo di armonizzazione dei dati acquisiti. OBIETTIVI – In questo contesto, il nostro progetto mira ad una armonizzazione delle misure di WMH ottenute a partire dai dati di imaging relativi a due grandi dataset DPUK (Dementia Platform UK): Whitehall (Whll) e UK Biobank (BB). Whll rappresenta uno studio multicentrico che da riferimento ad una singola popolazione, acquisita con lo stesso protocollo ma mediante l’utilizzo di due scanner diversi (SC1 e SC2). BB include, invece, dati provenienti da una popolazione diversa, acquisiti utilizzando un terzo scanner e un protocollo di imaging differente rispetto a quello menzionato in precedenza. Pertanto, il nostro lavoro è stato diviso in due parti distinte: 1) un processo di armonizzazione retrospettiva tra i due scanner presenti in Whll (Whll SC1 e Whll SC2), che si aggiunge ad una preesistente fase di armonizzazione prospettica, intrinseca allo studio di popolazione in questione; 2) un processo di armonizzazione retrospettiva, che mira all'integrazione di dati appartenenti a popolazioni significativamente eterogenee (Whll vs BB). Per quanto riguarda i dati di imaging, abbiamo sfruttato un tool automatico (BIANCA) per eseguire la segmentazione delle lesioni di interesse e abbiamo cercato di valutare l'influenza di cinque diversi parametri sulla sua performance finale: (i) rater che ha generato le maschere manuali utilizzate come riferimento per la fase di training (ii) correzione delle disomogeneità nel campo a radiofrequenze (RF) che caratterizza le immagini di risonanza magnetica nucleare (iii) differenza nel gruppo di soggetti utilizzati per il training (study specific/single vs mixed) (iv) presenza della Fractional Anisotropy (FA) tra le features utilizzate e (v) differenza nel metodo di thresholding applicato all’output ottenuto (globale o locale). Per quanto riguarda le variabili di non imaging, abbiamo cercato di armonizzare tutte quelle coinvolte nella nostra analisi, attraverso la creazione di una specifica pipeline per la conversione dei format. Abbiamo poi creato un modello matematico, in grado di prevedere il volume di WMH a partire dai dati di non-imaging, perfettamente integrati tra loro (pressione sanguigna, BMI, test cognitivi, ecc.). Questo ci ha permesso di prendere in considerazione la variabilità dovuta alle caratteristiche demografiche e cliniche degli individui e, inoltre, a valutare il rapporto tra le WMH e i loro principali fattori di rischio. RISULTATI – Innanzitutto abbiamo delineato un protocollo in grado di ottenere misure di WMH comparabili tra i diversi dataset a disposizione. Esso si compone di una serie di parametri che vengono di seguito elencati: (i) utilizzo di un rater esperto per la fase di segmentazione manuale (ii) correzione del biasfield presente nelle immagini (iii) uso di un training set misto, che combina informazioni provenienti da tutti i dataset coinvolti nella nostra analisi (iv) Fractional Anisotropy (FA) esclusa dalle features di training e (v) uso di un metodo di thresholding globale (0.9) per sogliare i risultati ottenuti. Successivamente, è stata implementata una pipeline (Parser) specifica per l'armonizzazione delle variabili di non-imaging coinvolte nel nostro studio, che è attualmente disponibile online sulla piattaforma GitLab. In questo contesto, abbiamo inoltre costruito un modello chiamato Elastic Net e lo abbiamo testato sui dati ricavati dai vari step di ricerca dei parametri ottimali, ottenendo così un valido supporto per il calcolo dell’importanza delle rispettive variabili di non-imaging. Infine, ci siamo serviti di un regressore gaussiano (Gaussian Process regressor) per la creazione di un modello di predizione generale, in grado di stimare il volume di lesioni cerebrali da cui è affetto un paziente, indipendentemente dalla coorte di dati alla quale appartiene. La performance ottenuta, in termini di correlazione tra il valore attuale e quello predetto, è circa pari a 0.4. CONCLUSIONI – I dati ottenuti dimostrano l'esistenza di un protocollo generale, in grado di ottenere misure di WMH comparabili tra i diversi dataset a disposizione, nel contesto della segmentazione automatica di lesioni. Tali risultati, insieme al processo di integrazione delle variabili di non-imaging, attestano il raggiungimento di un significativo effetto di armonizzazione sui diversi insiemi di dati coinvolti nella nostra analisi, che risultano finalmente ben integrati e compatibili. La significativa ed evidente eterogeneità che caratterizzava i dataset di partenza consente inoltre di prevedere un'applicazione su vasta scala dell’approccio integrativo da noi sviluppato.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
Master_thesis_BERTANI_BORDIN.pdf

accessibile in internet per tutti

Descrizione: Testo della tesi
Dimensione 3.3 MB
Formato Adobe PDF
3.3 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/150951