Modern medicine is developing in parallel with novel technologies, and new data- driven solutions are gaining interest and effectiveness like never before. Among others, diagnostic images represent a crucial source of information for planning interventions, diagnosing and treating illnesses, with image segmentation being a very frequent step towards success of this procedures. Leveraging artificial intelligence tools, new cheaper and effective ways of performing automatic segmentation are being developed. This work of thesis exploits deep learning architectures to achieve fast, accurate and automatic 3D segmentation of bones in the knee joint, in patients affected by severe osteoarthritis who undergo to PSI-based Total Knee Arthroplasty. This surgical operation entails the implantation of a knee prothesis to relieve pain, improve functionalities and restore knee mechanics of worn out bones. With the increasing rate of incident of such intervention, new personalized solutions were born, with customized pre-operative planning that requires the digital reconstruction of patient’s knee anatomy. Based on the reconstructed surfaces, personalized cutting jigs are manufactured and used to perform the surgical operation with a much less invasivness than traditional approaches. Automatic segmentation is obtained through trained deep learning models that learn how to map input data to some desired output representations, obviating the need of extracting hand-crafted features from the data. These models use large datasets to acquire the ability to perform the task, by cyclically comparing their temporary output with the corresponding reference through an objective function, and by progressively updating their parameters based on the error computed. The particular type of architecture exploited in this work are the Convolutional Neural Networks. CNNs allow to process large volumes of data maintaining the spatial invariance and without losing the local connectivity between voxels, thanks to the convolution operation that is performed throughout small kernels that learn to extract different feautres. Automatic image segmentation achieved with these approaches almost always outperforms the traditional thresholding or semi-automatic methods, that do not consider spatial and contextual information and frequently fail when structures’ boundaries are blurred. In 2015, an innovative convolutional architecture for medical image segmentation was successfully introduced, establishing a new benchmark for this task. The Unet is a feed-foreward convolutional network that comprehends an encoding, down-sampling branch that progressively extracts features from input data and a decoding branch that, by means of deconvolutional layers, allows to recover the initial fine-grained spatial resolution. The upsampling process exploits multi-scale feature fusion to concatenate the output of the encoding layer to the corresponding deconvolutional layer, by the use of skip connections. This work of thesis focuses on segmentation of femur, tibia, patella and fibula anatomies. A dataset of 259 CT volumes provided in anonymous form by MEDACTA International SA (Castel San Pietro) was split in training (75%), validation (15%) and test (10%) sets. Preprocessing was performed in order to crop and reshape the volumes to the dimension of 192×192×192 and to create reference binary volumes for each of the interested anatomies. After this, the work was developed in two phases. In the first place, the Unet was trained and used to compare 5 chosen loss functions, to understand from which the learning algorithm could benefit the most. The loss functions are the following: Dice Loss, Focal Loss, Exponential Logarithmic Loss, Double Cross Entropy Loss and Distanced Cross Entropy loss, with the last one assigning great importance to boundary voxels. In the second phase of this work, leveraging results of the comparison, a novel encoding-decoding architecture was developed with the aim of enhancing segmentation performances: CEL-Unet. This model maintains the same encoding configuration of the Unet, and introduces an innovation that regards the decoding path. CEL-Unet includes an additional decoding branch, called Edge branch, that produces high resolution boundary segmentation maps and runs in parallel to the original Mask branch. Information decoded in the Edge branch is enhanced by Pyramidal Edge Extraction (PEE) module, for mining multi-granularity edge features, and is integrated through vertical skip connection in the Mask path, that generates the final segmentation maps. The corresponding loss includes two functions, one for each of the two outputs of the network, namely Mask and Edge, yielding the so-called Combined Edge Loss (CEL) function. The accuracy of the segmentations was assessed with Jaccard, Precsion and Recall metrics that allow to account for over- and under-segmentation errors. Hausdorff distance and Root Mean Squared Error were also used to further evaluate the matching between reconstructed and target surfaces. 4 localized regions that represent the most critical areas were extracted and analyzed singularly, which are right condyle, left condyle, femur trochlea and tibial plateau. CEL-Unet outperformed all other Unet-based models, reaching the highest Jaccard values of about 0.97 and 0.96 on femur and tibia respectively and minimizing the Hausdorff distance and the RMSE in both global and local analyses. Very high training timings (up to 65 hours) and memory requirements represented the main technical challenges, since the whole work was developed on the free but limited Google Colab platform. However, deep learning-based 3D segmentation was found to be extremely effective and the novel, intuitive CEL-Unet provided very promising results for this task, significantly complicated by the severe pathological condition of the bones. According to the outcomes of the present work, these automated algorithms could really revolutionize modern healthcare, building fast and intelligent support tools in order to decrease costs and timings and foster a personalized approach to patient care.

La medicina moderna si sta sviluppando parallelamente alle nuove tecnologie e soluzioni innovative basate sui dati stanno acquisendo interesse ed efficacia come mai prima d’ora. Le immagini diagnostiche costituiscono una fonte di informazioni cruciale per la pianificazione degli interventi, la diagnosi e il trattamento delle malattie. In questo contesto, la segmentazione di immagini diagnostiche rappresenta un passo molto frequente che può determinare il successo di queste procedure. Sfruttando strumenti di intelligenza artificiale, nuovi efficaci metodi per eseguire segmentazione automatica sono in fase di sviluppo. Questo lavoro di tesi sfrutta le architetture di apprendimento profondo (Deep Learning) per ottenere una segmentazione 3D veloce, accurata e automatica delle ossa dell’articolazione del ginocchio, in pazienti affetti da artrosi avanzata che subiscono un intervento impianto di protesi totale di ginocchio. Questa operazione chirurgica ha l’obiettivo di alleviare il dolore, migliorare le funzionalità e ripristinare la corretta meccanica del ginocchio, compromessa dal forte grado di usura delle ossa dell’articolazione. Con il crescente tasso di incidenza di tale intervento, sono nate nuove soluzioni, che comprendono una pianificazione preoperatoria personalizzata che richiede la ricostruzione digitale dell’anatomia del ginocchio del paziente. Sulla base delle superfici ricostruite, vengono realizzate maschere di taglio ad hoc, utilizzate per eseguire l’operazione con una minore invasività rispetto agli approcci tradizionali. La segmentazione automatica è ottenuta attraverso modelli Deep Learning che im- parano a mappare i dati di input a degli output desiderati, ovviando alla necessità di estrarre manualmente le caratteristiche dei dati di addestramento. Questi modelli utilizzano un ampio set di dati per apprendere la funzione di mappaggio, confrontando ciclicamente l’ output temporaneo con gli output di riferimento presenti nel dataset, attraverso una funzione di costo, e aggiornando progressivamente i loro parametri in base all’errore calcolato. Il particolare tipo di architettura sfruttata in questo lavoro sono le reti neurali convoluzionali (CNN). Le CNN permettono di elaborare grandi volumi di dati mantenendo l’invarianza spaziale delle immagini e senza perdere la connettività locale tra i voxel, grazie all’operazione di convoluzione che viene eseguita attraverso piccoli kernel i quali imparano ad estrarre le diverse caratteristiche rapp- resentative. Questi approcci automatizzati risultano quasi sempre più accurati dei metodi tradizionali di soglia o degli approcci semi-automatici, che non considerano l’informazione spaziale e contestuale dei dati e spesso falliscono quando i bordi delle strutture non sono ben definiti. Nel 2015 è stata introdotta un’innovativa architettura convoluzionale per la segmen- tazione di immagini biomediche, che si è rapidamente affermata come nuovo punto di riferimento. La Unet è una rete convoluzionale che comprende un ramo di cod- ifica e sottocampionamento che estrae progressivamente le caratteristiche dai dati di input e un ramo di decodifica che, mediante strati deconvoluzionali, permette di recuperare l’alta risoluzione spaziale iniziale. Il processo di sovracampionamento sfrutta l’integrazione multi-scala per concatenare l’uscita dello strato di codifica al corrispondente strato deconvolutivo, mediante l’uso di connessioni dirette. Questo lavoro di tesi si concentra sulla segmentazione delle ossa femore, tibia, rotula e perone. Un dataset di 259 volumi tomografici, forniti in forma anonima da MEDACTA International SA (Castel San Pietro), è stato suddiviso in dataset di addestramento (75%), di validazione (15%) e di test (10%). Alcune pre-elaborazioni sono state eseguite al fine di ritagliare e ricampionare i dati alla dimensione di 192×192×192, per creare volumi binari di riferimento per ciascuna delle anatomie di interesse. Il lavoro si è poi sviluppato in due fasi. In primo luogo, la Unet è stata addestrata e utilizzata per confrontare 5 funzioni di costo scelte, per capire quale fosse la più efficace. Le funzioni di costo sono le seguenti: Dice Loss, Focal Loss, Exponential Logarithmic Loss, Double Cross Entropy Loss e Distanced Cross Entropy Loss. L’ultima funzione assegna grande importanza ai voxel di contorno delle ossa. Nella seconda fase di questo lavoro, sfruttando i risultati ottenuti nel confronto, è stata sviluppata una nuova architettura con l’obiettivo di migliorare le prestazioni di segmentazione: CEL-Unet. Questo modello mantiene la stessa configurazione di codifica della Unet, e introduce un’innovazione che riguarda la parte di decodifica. CEL-Unet comprende un ramo di decodifica aggiuntivo, chiamato ramo Edge, che produce mappe di segmentazione dei contorni ad alta risoluzione e che procede in parallelo al ramo originale Mask. Le informazioni decodificate nel ramo Edge vengono rifinite dal modulo Pyramidal Edge Extraction (PEE), utile per l’estrazione multi granulare delle caratteristiche dei bordi, e vengono integrate attraverso connessioni verticali dirette al percorso Mask, che genera le mappe di segmentazione finali. La funzione di costo corrispondente include due funzioni, una per ogni output della rete (Mask e Edge), che insieme costituiscono la cosiddetta Combined Edge Loss (CEL). L’accuratezza delle segmentazioni è stata valutata con gli indici di Jaccard, Precsion e Recall che consentono di tenere conto degli errori di sovra e sotto-segmentazione. Inoltre, la distanza di Hausdorff e la radice dell’errore quadratico medio (RMSE) sulle distanze superficiali sono stati utilizzati per valutare ulteriormente il grado di corrispondenza tra superfici ricostruite e i riferimenti. Le seguenti 4 regioni localizzate, che rappresentano le aree più critiche, sono state estratte e analizzate singolarmente: condilo destro, condilo sinistro, troclea femorale e piatto tibiale. La CEL-Unet ha superato tutti gli altri modelli basati su Unet, raggiungendo i valori più alti di Jaccard di 0,97 e 0,96 rispettivamente su femore e tibia e minimizzando la distanza di Hausdorff e il RMSE nelle analisi sia globali che locali. I tempi di addestramento molto elevati (fino a 65 ore) e gli alti requisiti di memoria hanno rappresentato le principali complicanze tecniche, dal momento che l’intero lavoro è stato sviluppato sulla piattaforma gratuita ma limitata di Google Colab. Tuttavia, la segmentazione 3D basata sull’apprendimento profondo si è rivelata es- tremamente efficace e la nuova, intuitiva architettura CEL-Unet ha fornito risultati molto promettenti per il presente riconoscimento osseo, significativamente complicato dalle gravi condizioni patologiche delle ossa. Secondo i risultati di questo lavoro, questi algoritmi automatizzati potrebbero rivoluzionare la sanità moderna, costituendo la base per strumenti di supporto veloci e intelligenti, atti a ridurre i costi e i tempi di molte procedure e a promuovere un approccio personalizzato alla cura del paziente.

CEL-Unet : a novel CNN architecture for 3D segmentation of knee bones affected by severe osteoarthritis for PSI-based surgical planning

Faglia, Alberto
2019/2020

Abstract

Modern medicine is developing in parallel with novel technologies, and new data- driven solutions are gaining interest and effectiveness like never before. Among others, diagnostic images represent a crucial source of information for planning interventions, diagnosing and treating illnesses, with image segmentation being a very frequent step towards success of this procedures. Leveraging artificial intelligence tools, new cheaper and effective ways of performing automatic segmentation are being developed. This work of thesis exploits deep learning architectures to achieve fast, accurate and automatic 3D segmentation of bones in the knee joint, in patients affected by severe osteoarthritis who undergo to PSI-based Total Knee Arthroplasty. This surgical operation entails the implantation of a knee prothesis to relieve pain, improve functionalities and restore knee mechanics of worn out bones. With the increasing rate of incident of such intervention, new personalized solutions were born, with customized pre-operative planning that requires the digital reconstruction of patient’s knee anatomy. Based on the reconstructed surfaces, personalized cutting jigs are manufactured and used to perform the surgical operation with a much less invasivness than traditional approaches. Automatic segmentation is obtained through trained deep learning models that learn how to map input data to some desired output representations, obviating the need of extracting hand-crafted features from the data. These models use large datasets to acquire the ability to perform the task, by cyclically comparing their temporary output with the corresponding reference through an objective function, and by progressively updating their parameters based on the error computed. The particular type of architecture exploited in this work are the Convolutional Neural Networks. CNNs allow to process large volumes of data maintaining the spatial invariance and without losing the local connectivity between voxels, thanks to the convolution operation that is performed throughout small kernels that learn to extract different feautres. Automatic image segmentation achieved with these approaches almost always outperforms the traditional thresholding or semi-automatic methods, that do not consider spatial and contextual information and frequently fail when structures’ boundaries are blurred. In 2015, an innovative convolutional architecture for medical image segmentation was successfully introduced, establishing a new benchmark for this task. The Unet is a feed-foreward convolutional network that comprehends an encoding, down-sampling branch that progressively extracts features from input data and a decoding branch that, by means of deconvolutional layers, allows to recover the initial fine-grained spatial resolution. The upsampling process exploits multi-scale feature fusion to concatenate the output of the encoding layer to the corresponding deconvolutional layer, by the use of skip connections. This work of thesis focuses on segmentation of femur, tibia, patella and fibula anatomies. A dataset of 259 CT volumes provided in anonymous form by MEDACTA International SA (Castel San Pietro) was split in training (75%), validation (15%) and test (10%) sets. Preprocessing was performed in order to crop and reshape the volumes to the dimension of 192×192×192 and to create reference binary volumes for each of the interested anatomies. After this, the work was developed in two phases. In the first place, the Unet was trained and used to compare 5 chosen loss functions, to understand from which the learning algorithm could benefit the most. The loss functions are the following: Dice Loss, Focal Loss, Exponential Logarithmic Loss, Double Cross Entropy Loss and Distanced Cross Entropy loss, with the last one assigning great importance to boundary voxels. In the second phase of this work, leveraging results of the comparison, a novel encoding-decoding architecture was developed with the aim of enhancing segmentation performances: CEL-Unet. This model maintains the same encoding configuration of the Unet, and introduces an innovation that regards the decoding path. CEL-Unet includes an additional decoding branch, called Edge branch, that produces high resolution boundary segmentation maps and runs in parallel to the original Mask branch. Information decoded in the Edge branch is enhanced by Pyramidal Edge Extraction (PEE) module, for mining multi-granularity edge features, and is integrated through vertical skip connection in the Mask path, that generates the final segmentation maps. The corresponding loss includes two functions, one for each of the two outputs of the network, namely Mask and Edge, yielding the so-called Combined Edge Loss (CEL) function. The accuracy of the segmentations was assessed with Jaccard, Precsion and Recall metrics that allow to account for over- and under-segmentation errors. Hausdorff distance and Root Mean Squared Error were also used to further evaluate the matching between reconstructed and target surfaces. 4 localized regions that represent the most critical areas were extracted and analyzed singularly, which are right condyle, left condyle, femur trochlea and tibial plateau. CEL-Unet outperformed all other Unet-based models, reaching the highest Jaccard values of about 0.97 and 0.96 on femur and tibia respectively and minimizing the Hausdorff distance and the RMSE in both global and local analyses. Very high training timings (up to 65 hours) and memory requirements represented the main technical challenges, since the whole work was developed on the free but limited Google Colab platform. However, deep learning-based 3D segmentation was found to be extremely effective and the novel, intuitive CEL-Unet provided very promising results for this task, significantly complicated by the severe pathological condition of the bones. According to the outcomes of the present work, these automated algorithms could really revolutionize modern healthcare, building fast and intelligent support tools in order to decrease costs and timings and foster a personalized approach to patient care.
MARZORATI, DAVIDE
ING - Scuola di Ingegneria Industriale e dell'Informazione
28-apr-2021
2019/2020
La medicina moderna si sta sviluppando parallelamente alle nuove tecnologie e soluzioni innovative basate sui dati stanno acquisendo interesse ed efficacia come mai prima d’ora. Le immagini diagnostiche costituiscono una fonte di informazioni cruciale per la pianificazione degli interventi, la diagnosi e il trattamento delle malattie. In questo contesto, la segmentazione di immagini diagnostiche rappresenta un passo molto frequente che può determinare il successo di queste procedure. Sfruttando strumenti di intelligenza artificiale, nuovi efficaci metodi per eseguire segmentazione automatica sono in fase di sviluppo. Questo lavoro di tesi sfrutta le architetture di apprendimento profondo (Deep Learning) per ottenere una segmentazione 3D veloce, accurata e automatica delle ossa dell’articolazione del ginocchio, in pazienti affetti da artrosi avanzata che subiscono un intervento impianto di protesi totale di ginocchio. Questa operazione chirurgica ha l’obiettivo di alleviare il dolore, migliorare le funzionalità e ripristinare la corretta meccanica del ginocchio, compromessa dal forte grado di usura delle ossa dell’articolazione. Con il crescente tasso di incidenza di tale intervento, sono nate nuove soluzioni, che comprendono una pianificazione preoperatoria personalizzata che richiede la ricostruzione digitale dell’anatomia del ginocchio del paziente. Sulla base delle superfici ricostruite, vengono realizzate maschere di taglio ad hoc, utilizzate per eseguire l’operazione con una minore invasività rispetto agli approcci tradizionali. La segmentazione automatica è ottenuta attraverso modelli Deep Learning che im- parano a mappare i dati di input a degli output desiderati, ovviando alla necessità di estrarre manualmente le caratteristiche dei dati di addestramento. Questi modelli utilizzano un ampio set di dati per apprendere la funzione di mappaggio, confrontando ciclicamente l’ output temporaneo con gli output di riferimento presenti nel dataset, attraverso una funzione di costo, e aggiornando progressivamente i loro parametri in base all’errore calcolato. Il particolare tipo di architettura sfruttata in questo lavoro sono le reti neurali convoluzionali (CNN). Le CNN permettono di elaborare grandi volumi di dati mantenendo l’invarianza spaziale delle immagini e senza perdere la connettività locale tra i voxel, grazie all’operazione di convoluzione che viene eseguita attraverso piccoli kernel i quali imparano ad estrarre le diverse caratteristiche rapp- resentative. Questi approcci automatizzati risultano quasi sempre più accurati dei metodi tradizionali di soglia o degli approcci semi-automatici, che non considerano l’informazione spaziale e contestuale dei dati e spesso falliscono quando i bordi delle strutture non sono ben definiti. Nel 2015 è stata introdotta un’innovativa architettura convoluzionale per la segmen- tazione di immagini biomediche, che si è rapidamente affermata come nuovo punto di riferimento. La Unet è una rete convoluzionale che comprende un ramo di cod- ifica e sottocampionamento che estrae progressivamente le caratteristiche dai dati di input e un ramo di decodifica che, mediante strati deconvoluzionali, permette di recuperare l’alta risoluzione spaziale iniziale. Il processo di sovracampionamento sfrutta l’integrazione multi-scala per concatenare l’uscita dello strato di codifica al corrispondente strato deconvolutivo, mediante l’uso di connessioni dirette. Questo lavoro di tesi si concentra sulla segmentazione delle ossa femore, tibia, rotula e perone. Un dataset di 259 volumi tomografici, forniti in forma anonima da MEDACTA International SA (Castel San Pietro), è stato suddiviso in dataset di addestramento (75%), di validazione (15%) e di test (10%). Alcune pre-elaborazioni sono state eseguite al fine di ritagliare e ricampionare i dati alla dimensione di 192×192×192, per creare volumi binari di riferimento per ciascuna delle anatomie di interesse. Il lavoro si è poi sviluppato in due fasi. In primo luogo, la Unet è stata addestrata e utilizzata per confrontare 5 funzioni di costo scelte, per capire quale fosse la più efficace. Le funzioni di costo sono le seguenti: Dice Loss, Focal Loss, Exponential Logarithmic Loss, Double Cross Entropy Loss e Distanced Cross Entropy Loss. L’ultima funzione assegna grande importanza ai voxel di contorno delle ossa. Nella seconda fase di questo lavoro, sfruttando i risultati ottenuti nel confronto, è stata sviluppata una nuova architettura con l’obiettivo di migliorare le prestazioni di segmentazione: CEL-Unet. Questo modello mantiene la stessa configurazione di codifica della Unet, e introduce un’innovazione che riguarda la parte di decodifica. CEL-Unet comprende un ramo di decodifica aggiuntivo, chiamato ramo Edge, che produce mappe di segmentazione dei contorni ad alta risoluzione e che procede in parallelo al ramo originale Mask. Le informazioni decodificate nel ramo Edge vengono rifinite dal modulo Pyramidal Edge Extraction (PEE), utile per l’estrazione multi granulare delle caratteristiche dei bordi, e vengono integrate attraverso connessioni verticali dirette al percorso Mask, che genera le mappe di segmentazione finali. La funzione di costo corrispondente include due funzioni, una per ogni output della rete (Mask e Edge), che insieme costituiscono la cosiddetta Combined Edge Loss (CEL). L’accuratezza delle segmentazioni è stata valutata con gli indici di Jaccard, Precsion e Recall che consentono di tenere conto degli errori di sovra e sotto-segmentazione. Inoltre, la distanza di Hausdorff e la radice dell’errore quadratico medio (RMSE) sulle distanze superficiali sono stati utilizzati per valutare ulteriormente il grado di corrispondenza tra superfici ricostruite e i riferimenti. Le seguenti 4 regioni localizzate, che rappresentano le aree più critiche, sono state estratte e analizzate singolarmente: condilo destro, condilo sinistro, troclea femorale e piatto tibiale. La CEL-Unet ha superato tutti gli altri modelli basati su Unet, raggiungendo i valori più alti di Jaccard di 0,97 e 0,96 rispettivamente su femore e tibia e minimizzando la distanza di Hausdorff e il RMSE nelle analisi sia globali che locali. I tempi di addestramento molto elevati (fino a 65 ore) e gli alti requisiti di memoria hanno rappresentato le principali complicanze tecniche, dal momento che l’intero lavoro è stato sviluppato sulla piattaforma gratuita ma limitata di Google Colab. Tuttavia, la segmentazione 3D basata sull’apprendimento profondo si è rivelata es- tremamente efficace e la nuova, intuitiva architettura CEL-Unet ha fornito risultati molto promettenti per il presente riconoscimento osseo, significativamente complicato dalle gravi condizioni patologiche delle ossa. Secondo i risultati di questo lavoro, questi algoritmi automatizzati potrebbero rivoluzionare la sanità moderna, costituendo la base per strumenti di supporto veloci e intelligenti, atti a ridurre i costi e i tempi di molte procedure e a promuovere un approccio personalizzato alla cura del paziente.
File allegati
File Dimensione Formato  
CEL-Unet_A novel CNN architecture for 3D Segmentation of Knee Bones affected by Severe Osteoarthritis for PSI-Based Surgical Planning.pdf

accessibile in internet per tutti

Dimensione 27.97 MB
Formato Adobe PDF
27.97 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/176020