Machine learning for scar detection applied to non-enhanced cine cardiac magnetic resonance images

In clinical practice, magnetic resonance imaging (MRI) is the reference method for assessing the consequences of ischemic episodes on myocardial structure. In these cases, typical clinical MRI protocols require at least two acquisition modes: the cine mode, which provides images of the heart's movement during the cardiac cycle, and the late Gadolinium enhancement (LGE) mode, which is used instead for identification and the quantification of the extent of fibrotic tissue. This last technique is based on the use of Gadolinium (Gd) as a contrast medium to intensify the signal generated from the fibrotic regions, otherwise not visible in the images acquired with other sequences. However, it is known that LGE MRI acquisitions are highly contraindicated in cases of patients suffering from severe kidney disorders; furthermore, a recent study by McDonald et al. [54] has shown that Gd may represent a risk factor even in patients with normal renal function. For this reason, a technique that could identify and quantify the presence of the scar without the need for Gd administration would have great clinical relevance. In literature, it has been shown that the presence of the scar is often accompanied by alterations in the movement of the cardiac walls [66], thus suggesting that it is possible to identify the presence of fibrotic tissue even in non-contrasted images. Indeed, recent studies [69,70,71] have shown that the analysis of the texture performed using the traditional methods of machine learning are actually capable of extracting information relevant to the scar even from cine images only. In this context, the following thesis project proposes an innovative approach for the classification of scar tissue and healthy tissue present in the myocardial region of the left ventricle starting from the cine images: The basic idea is to consider both the information related to the texture of a specific frame (end of diastole), and information on wall movement over time, so as to mimic the evaluation process performed by the human observer in the classification of the various sectors in which the cardiac cavity is divided according to a predefined pattern [57]. In order to capture the anomalies of the ventricular movement related to the pathology, we used parametric images based on the Fourier analysis: these images exploit the variation of the signal intensity of each pixel over time and the natural contrast between the myocardium and the ventricular cavity to condense information from the sequence of frames related to the cardiac cycle into a reduced number of synthetic, or parametric, images that represent the value of a specific parameter of an interpolating curve of these values. The classification followed two distinct approaches, with the aim of comparing their performances with respect to the gold standard, represented by the classification of each sector as healthy or pathological, carried out by an expert cardiologist: on one hand, Random Forest (RF) models were used for the analysis of statistical descriptors of texture of the first and second order; on the other hand, a Convolutional Neural Network (CNN) was used, consisting of a sequence of convolutional layers ending with a Fully Connected layer that acts as classifier. The study was conducted retrospectively on 40 patients affected by ischemic dilated cardiomyopathy: for each of them the short axis cine heart sequences (SA) and the corresponding LGE images were acquired. In order to classify the regions of myocardial tissue, each image was divided into six sectors following the guidelines of the American Heart Association (AHA) 17-sector model [57]. Following the application of some exclusion criteria, 1022 sequences (2D + t) in the cardiac cycle relevant to separate sectors were selected from the 1968 originally available. Starting from these, training datasets were built for the classification models, according to the purposes of the study. In this thesis, four different experimental protocols have been adopted to study subsequently different aspects of the considered methods: the first protocol (P1) used as input only the static images corresponding to the end-of-diastole cine frame. In the second protocol (P2), only the parametric images relevant to the normalized amplitude of the first Fourier harmonic were used as input. In the third protocol (P3) a possible improvement of the classification results was verified by using both images previously used as input: the objective was to extract and concatenate the features belonging to the static and parametric images, thus adding to the information of the spatial texture that related to the movement of the ventricular endocardium in each considered sector. The fourth protocol (P4) aimed to verify the improvement of the results obtained in the previous protocol by adding a further parametric image, representative of the phase of the first harmonic. In addition to the performances of the two models studied, the use of a 3D CNN network was also explored, trained starting from the temporal volumes (2D cine images + t) of the cardiac cycles of the various sectors. To evaluate the performance of the models in the various protocols, a 3-fold cross-validation procedure was used: subsequently the area values under the curve (AUC) of the ROC curve (Receiver Operating Characteristic), sensitivity and precision were calculated. The best performances were obtained in P4 (average AUC = 75%, standard deviation (sd) = 2%) concatenating the vectors of the features extracted by Local Binary Pattern (LBP) to the first order statistical ones and classifying them with an RF model. The sensitivity value was 70% with an interquartile range (IQR) = 2%. Similar values were observed with regard to precision (median = 69%, IQR = 1%). CNN network resulted in significantly lower values (Mann Whitney Test p <0.05) reporting a mean AUC = 69% (sd = 3%) a sensitivity value = 65% (IQR = 6%) and a precision = 66% (IQR = 6%). The 3D network reported the worst results with mean AUC values = 65% (sd = 2%) a sensitivity value = 61% (IQR = 1%) and a precision = 62% (IQR = 1%). Based on these results, this work showed how the use of parametric images to condense temporal information related to ventricular endocardial wall movement could lead to a statistically significant improvement in the classification performance of the models used, starting from cine images: compared to the first protocol, the approach in P4 led to an improvement in the sensitivity value of the classification from 65% to 70%, accuracy from 66% to 69%, and the AUC from 70% to 75%. This study has also shown how CNN networks can find difficulties in trying to independently extract the spatial or temporal characteristics related to the presence of scar tissue in non-enhanced images. These results, although not yet allowing a clinical application for the automatic classification of the ventricular sectors with scar tissue, constitute a first step for the use of machine learning methods in this area of research.

Nella pratica clinica la risonanza magnetica (RM) costituisce la metodica di riferimento per valutare le conseguenze strutturali di episodi ischemici. In questi casi, i protocolli RM tipici prevedono almeno due modalità di acquisizione: la modalità cine, che fornisce immagini del movimento del cuore durante il ciclo cardiaco, e la modalità late Gadolinium enhancement (LGE), che viene utilizzata invece per l’identificazione e la quantificazione del grado di estensione del tessuto fibrotico. Quest’ultima tecnica si basa sull’utilizzo del Gadolinio (Gd) come mezzo di contrasto per intensificare il segnale proveniente dalle regioni cicatrizzate, altrimenti non visibili nelle immagini acquisite con le normali sequenze di risonanza. Tuttavia, è noto che le acquisizioni LGE RM siano altamente controindicate nei casi di pazienti affetti da gravi disturbi renali; inoltre, un recente studio di McDonald et al. [54] ha dimostrato come il Gd possa rappresentare un fattore di rischio anche in pazienti con funzioni renali normali. Per questo motivo, una tecnica che riuscisse a identificare e quantificare la presenza della cicatrice senza la necessità della somministrazione del Gd avrebbe una grande rilevanza dal punto di vista clinico. In letteratura è stato dimostrato come la presenza della cicatrice sia accompagnata spesso da alterazioni nel movimento delle pareti cardiache [66], suggerendo quindi che sia possibile identificare la presenza del tessuto fibrotico anche in immagini non contrastate. Studi recenti [69,70] hanno di fatto dimostrato che l’analisi della texture condotta con i metodi tradizionali di apprendimento automatico (Machine Learning) è effettivamente capace di estrarre informazione relativa la cicatrice anche dalle sole immagini cine. In questo contesto, il seguente lavoro di tesi propone un approccio innovativo per la classificazione di tessuto cicatrizzato e tessuto sano presenti nella regione miocardica del ventricolo sinistro a partire dalle immagini cine: L’idea di base è quella di considerare sia l’informazione relativa alla texture di un frame specifico (fine diastole), sia l’informazione del movimento parietale nel tempo, così da mimare il processo di valutazione compiuto dall’osservatore umano nella classificazione dei vari settori in cui la cavità cardiaca viene suddivisa secondo uno schema predefinito [57]. Per cogliere le anomalie del movimento ventricolare legate alla patologia si vuole sfruttare il concetto delle immagini parametriche basate sull’analisi di Fourier: queste immagini sfruttano la variazione dell’intensità del segnale di ogni pixel nel tempo e il naturale contrasto tra il miocardio e la cavità ventricolare per condensare le informazioni provenienti dalla sequenza dei frame relativi al ciclo cardiaco in un numero ridotto di immagini sintetiche, o parametriche, che rappresentano il valore di un parametro specifico di una curva interpolante di tali valori. La classificazione è stata affrontata seguendo due approcci distinti, con lo scopo di confrontare le rispettive prestazioni rispetto al gold standard, rappresentato dalla classificazione di ogni settore come sano o patologico, effettuato da parte di un medico esperto: da una parte sono stati utilizzati dei modelli Random Forest (RF) per l’analisi di descrittori di texture statistici del primo e del secondo ordine; dall’altra è stata utilizzata una rete neurale convoluzionale (Convolutional Neural Network, CNN) costituita da una successione di strati convoluzionali che terminano con degli strati densi (Fully Connected) che fungono da classificatori. Lo studio è stato condotto retrospettivamente su 40 pazienti affetti da cardiomiopatia dilatativa ischemica: per ciascuno di essi erano state acquisite le sequenze cardiache cine in asse corto (SA) e le immagini LGE corrispondenti. Per classificare le regioni di tessuto del miocardio, ciascuna immagine è stata suddivisa in sei settori seguendo le linee guida del modello a 17 settori dell’American Heart Association (AHA) [57]. A seguito dell’applicazione di alcuni criteri di esclusione, sono state recuperate, dalle 1968 disponibili, 1022 sequenze (2D+t) relative il ciclo cardiaco dei settori. A partire da queste sono stati costruiti i dataset di allenamento per i modelli di classificazione, a seconda degli scopi dello studio. In questo lavoro di tesi sono stati adottati quattro diversi protocolli sperimentali per studiare in successione diversi aspetti dei metodi considerati: il primo protocollo (P1) si sono usate come input solo le immagini statiche corrispondenti al frame cine di fine diastole. Nel secondo protocollo (P2) si sono utilizzate come input solo le immagini parametriche relative l’ampiezza normalizzata della prima armonica di Fourier. Nel terzo protocollo (P3) si è verificato il possibile miglioramento dei risultati della classificazione utilizzando come input entrambe le immagini usate in precedenza: l'obiettivo è stato quello di estrarre e concatenare le feature appartenenti alle immagini statiche e parametriche, aggiungendo così all’informazione della texture spaziale quella relativa al movimento dell’endocardio ventricolare in ogni settore considerato. Il quarto protocollo (P4) e si poneva come obiettivo la verifica del miglioramento dei risultati ottenuti nel protocollo precedente aggiungendo una ulteriore immagine parametrica, rappresentativa della fase della prima armonica. In aggiunta alle performance dei due modelli studiati, si è anche esplorato l’utilizzo di una rete CNN 3D, allenata a partire dai volumi temporali (immagini cine 2D+t) dei cicli cardiaci dei vari settori. Per valutare le prestazioni dei modelli nei diversi protocolli è stata utilizzata una procedura di 3 fold cross-validation: successivamente si è proceduto al calcolo dei i valori di area sotto la curva (AUC) della curva ROC (Receiver Operating Characteristic), sensitività e precisione. Le migliori performance sono state ottenute in P4 (AUC media = 75%, deviazione standard (DS) = 2%) concatenando i vettori delle feature estratti tramite Local Binary Pattern (LBP) a quelli statistici del primo ordine e classificandoli con un modello RF. Il valore di sensitività è risultato pari al 70% con un intervallo interquartile (IQR) = 2%. Valori simili si sono osservati per quanto riguarda la precisione (mediana = 69%, IQR = 1%). La rete CNN ha registrato valori significativamente minori (Mann Whitney Test p<0.05) riportando un AUC media=69% (DS=3%) un valore di sensitività = 65% (IQR=6%) ed una precisione=66% (IQR=6%). La rete 3D ha riportato i risultati peggiori con dei valori di AUC media=65% (DS=2%) un valore di sensitività = 61% (IQR=1%) ed una precisione=62% (IQR=1%). Sulla base di questi risultati, questo lavoro ha mostrato come l'uso di immagini parametriche per condensare le informazioni temporali relative al movimento della parete endocardica ventricolare possa portare ad un miglioramento statisticamente significativo delle prestazioni di classificazione dei modelli utilizzati, a partire da immagini cine: rispetto al primo protocollo, l’approccio in P4 ha portato ad un miglioramento nel valore di sensitività della classificazione dal 65% al 70%, della precisione dal 66% al 69%, e del AUC dal 70% a 75%. Tale studio ha inoltre evidenziato come le reti CNN possano trovare difficoltà nel tentativo di estrarre in modo autonomo le caratteristiche spaziali o temporali legate alla presenza di tessuto cicatriziale in immagini non contrastate. Tali risultati, seppur non consentendo ancora una applicazione clinica per la classificazione automatica dei settori ventricolari con tessuto cicatriziale, costituiscono un primo passo per l’utilizzo di metodi di machine learning in questo ambito.