Early-stage diagnosis of head and neck cancer is of primary importance for lowering patient mortality or after treatment morbidity. The main form of head and neck cancer is the so called squamous cell carcinoma (SCC) and in its early-stages is associated with the presence of intrapapillary capillary loops (IPCL) and hypertrophic vessels (Hbv), as well as with the presence of pre-cancerous tissue conditions, such as leukoplakia (Le) and erythroplakia. SCC identification is a non-trivial task even for the experienced surgeon due to the complexity in the acquisition of in-vivo endoscopic images (i.e. limited field of view), the reduced image quality (i.e. noise, variation in illumination levels), the complexity of the treated anatomical district (high inter- and intra-patient variability). Recent developments in the field of deep learning techniques for the analysis of medical images have shown that algorithms based on convolutional neural networks (CNN) can prove to be valid tools to address cancer detection and tissue classification problems in other anatomical districts or at least with different type of images. Despite the challenges in diagnosis reported in the clinical literature and well- established surgical data science approaches in literature outside the field of head and neck tract, few efforts have been invested in computer-assisted diagnosis of different sub-sites of head and neck cancer. On these basis, the final goal of this thesis is investigating deep-learning strategies to support fast and accurate SCC diagnosis from endoscopic video-frames in narrow- band imaging (NBI), an optical-biopsy technique commonly used for screening and diagnosing head and neck cancer, reducing the risks linked to a biopsy. The strategy leans onto two consecutive methods. The first one is aimed at detecting and distinguishing pathological (affected by SCC) areas from non-pathological ones (healthy) by testing CNN-based methods for semantic segmentation. Secondly, the thesis is aimed at further investigating the detected carcinoma site, through the classification in four tissue classes: (i) healthy, (ii) hypertrophic vessels, (iii) leukoplakia, (iv) abnormal IPCL. This second approach takes advantage of learned features, instead of standard handcrafted ones, extracted using convolutional neural networks (CNNs) and it is exploited in two different conditions. Firstly, the CNN models used are only pre-trained on the ImageNet dataset, a large scale database of natural images. In the second condition tested, instead, CNNs are fine-tuned to allow the classification of endoscopic images. The aforementioned learned features are then used to classify the different tissue classes by means of a transfer learning process. Specifically to the first aim, in order to segment SCC, three different fully convolutional neural networks (FCNNs) were tested: U-Net, U-Net3 and different configurations of ResNet architecture. The experimental analysis was performed on two novel datasets collected by the Department of Otorhinolaryngology, Head and Neck Surgery at University of Brescia. Datasets are constituted by 102 and 116 NBI frames, extracted from 45 and 34 laryngoscopic videos of different patients in narrow-band imaging (NBI), respectively. Each of them is afferent to a different tract, the first one to the oral cavity tract and the other to the oropharyngeal tract. For both datasets, three-fold cross validation and data augmentation, mainly consisting in geometric transformations of the original images, was performed to evaluate the performance. The subsequent classification problem was investigated by testing six CNNs: VGG 16, Inception V4, ResNet V1 101, ResNet V1 152, ResNet V2 152, and Inception- ResNet V2. To test this approach, the learned features were extracted from the Laryngeal dataset, which is a publicly available dataset consisting of 1320 patches extracted from 33 laryngoscopic video frames in narrow-band imaging (NBI) acquired in actual clinical practice from 33 different patients. Support vector machines (SVMs), as first condition, and CNN-based approach, as second condition, were then used to classify patches as healthy (He) and with hypertrophic vessels (HBv), presentimg leukoplakia (Le) and with intraepithelial papillary capillary loops (IPCL). Three-fold cross validation was performed to evaluate the classification performance. The best performing FCNN for the segmentation task showed an overall median dice similarity coefficient of 0.69 for oropharingeal frames (OP) and 0.60 for the oral cavity frames (OC). Both values were obtained with ResNet – 1(2) blocks – 8 filters architecture, with the shortest computational time required for the detection of the carcinoma site per frame (i.e. inference time) of 14 ms. As regards the classification problem, the best-performing learned-feature set was achieved with Inception ResNet V2 resulting in a recall of He of 0.99, recall of Hbv of 0.95, recall of Le of 0.95 and lastly recall of IPCL of 0.88 when classifying patches with SVMs (first condition). Regarding the CNN-based classification approach (second condition) recall of He of 1.00, recall of Hbv of 0.92, recall of Le of 0.97 and lastly recall of IPCL of 0.88 were achieved. Considering the totally absence of deep-learning-based methods in the literature of the analyzed head and neck sub-districts (i.e. oropharynx and oral cavity) from which drawing inspiration, this first attempt trying to automatically detect areas affected by SCC from NBI video frames can be considered an effective approach for the segmentation of pathological areas in endoscopic videos, to be used also in real time given the small inference time per frame. Regarding the tissue classification stage on laryngeal NBI frames, both the conditions tested outperformed the state of the art which presented recall of He of 0.98, recall of Hbv of 0.94, recall of Le of 0.92 and lastly recall of IPCL of 0.86. Such results were achieved independently from the definition of image- or patient-specific parame- ters, making the algorithm a proper tool to face the complexity and high variability of laryngeal pathological tissues. The work is in collaboration with the Department of Otorhinolaryngology, Head and Neck Surgery, University of Brescia for the segmentation task and the Department of Advanced Robotics @ Istituto Italiano di Tecnologia (IIT) in Genoa, as regards the classification problem.

La diagnosi precoce del cosiddetto tumore testa-collo risulta di vitale importanza al fine di ridurre la mortalità dei pazienti che ne sono affetti e/o l’insorgenza di nuove metastasi dopo il trattamento chirurgico. Il tumore testa-collo nel 95-98% dei casi si presenta sotto forma di carcinoma squamocellulare (SCC) e nei suoi stadi iniziali è spesso associato a diversi sintomi, tra i quali la presenza di anse papillo-capillari intraepiteliali (IPCL, acronimo in lingua inglese per Intraepithelial Papillary Capillary Loops) e vasi ipertrofici (Hbv, acronimo in lingua inglese per Hyperthrophic Vessels), nonchè la presenza di tessuti precancerosi, come la leucoplachia (Le) e l’eritroplachia. L’identificazione del carcinoma squamocellulare da immagini endoscopiche non è affatto semplice, anche per il chirurgo più esperto. Questo a causa della complessità insita nella procedura di acquisizione di immagini endoscopiche in vivo, quindi con un campo visivo limitato; per la ridotta qualità delle immagini, che possono presentare rumore e diversi livelli di illuminazione; infine per la complessità dei distretti anatomici trattati (i.e. cavo orale, orofaringe, laringe) e quindi la loro variabilità inter- e intra- paziente elevata. I recenti sviluppi nel campo delle tecniche di intelligenza artificiale (AI, acronimo in lingua inglese per Artificial Intelligence) per l’analisi di immagini mediche hanno mostrato come gli algoritmi di Deep Learning, basati su reti neurali convoluzionali (CNN), possano rivelarsi validi strumenti atti al riconoscimento dei siti tumorali e alla loro classificazione tessutale per quanto riguarda altri distretti anatomici. Nonostante le difficoltà nella diagnosi espresse dai clinici di questo particolare carcinoma e i promettenti approcci semi-automatici basati sull’intelligenza artificiale riportati nella letteratura scientifica al di fuori del distretto testa-collo, nessun tentativo è stato condotto su immagini endoscopiche riguardanti diversi sotto-distretti dell’area testa-collo con lo scopo di fornire una robusta procedura di diagnosi assistita. Partendo da questi presupposti, l’obiettivo che questa tesi si propone è lo studio di strategie di deep-Learning in grado di supportare la diagnosi del carcinoma squamocellulare nel distretto testa-collo, utilizzando immagini endoscopiche estratte da video acquisiti a banda stretta (NBI, acronimo in lingua inglese per Narrow Band Imaging), una tecnica di biopsia ottica comunemente utilizzata per lo screening e la diagnosi del tumore testa-collo, capace di ridurre i rischi legati a una biopsia. La strategia consta di due diversi e consecutivi metodi. Il primo ha lo scopo di individuare e distinguere le aree patologiche (affette da tumore squamocellulare) da quelle non patologiche (sane) testando metodi basati sulle CNN per la segmentazione semantica. In secondo luogo la tesi ha lo scopo di indagare ulteriormente il sito del carcinoma precedentemente rilevato, attraverso la classificazione in quattro diverse classi di tessuti: (i) sani, (ii) vasi ipertrofici, (iii) tessuto con leucoplachia, (iv) IPCL anormali. Questo secondo approccio sfrutta le caratteristiche delle immagini apprese dalle stesse CNN, anzichè quelle fornitegli manualmente ed è testato in due diverse condizioni. Come prima condizione, i modelli di CNN utilizzati sono solamente pre-addestrati su un ampio database di immagini naturali, ImageNet, costituito da circa 14 milioni di immagini. Nella seconda condizione testata, invece, le CNN sono messe a punto (tramite il cosiddetto fine-tuning), per consentire la classificazione delle immagini endoscopiche raffinando ulteriormente la performance. Le caratteristiche apprese in maniera automatica dagli algoritmi vengono quindi utilizzate per classificare le patch (piccole porzioni in cui le immagini sono state suddivise) delle immagini endoscopiche mediante un processo denominato transfer learning, ossia apprendimento tramite l’utilizzo di caratteristiche apprese su un altro set di immagini. In particolare, per il primo obiettivo, ossia per segmentare il carcinoma squamocellulare, sono state testate tre diverse architetture di CNN: U-Net, U-Net3 e diverse configurazioni dell’architettura ResNet. L’analisi sperimentale è stata eseguita su due dataset di immagini endoscopiche ottenute tramite NBI, ciascuno dei quali afferente a un tratto distinto del distretto testa-collo: la cavità orale e il tratto orofaringeo. Per la cavità orale le immagini a disposizione consistevano in 102 immagini endoscopiche ottenute tramite NBI da 45 diversi pazienti, mentre per il tratto orofaringeo il set di immagini era costituito da 116 immagini endoscopiche proveniente da 34 diversi pazienti. Al fine di ottenere una valida analisi dei dati, è stata eseguita una convalida incrociata dei dati suddividendo entrambi i dataset in tre differenti parti con medesima cardinalità. Per garantire che i dataset fossero di dimensioni appropriate per la fase di apprendimento (training, nel gergo dell’AI) delle architetture, sono stati incrementati generando ulteriori immagini (data augmentation, nel gergo dell’AI) prettamente tramite trasformazioni geometriche delle immagini originali. Il successivo problema di classificazione è stato esaminato testando sei diverse CNN: VGG 16, Inception V4, ResNet V1 101, ResNet V1 152, ResNet V2 152 e Inception- ResNet V2. Per validare questo approccio è stato utilizzato un dataset di immagini endoscopiche del tratto laringeo. Il dataset in questione è pubblicamente disponibile ed è costituito da 1320 patch estratte da 33 video laringoscopici, acquisiti tramite NBI, durante la pratica clinica da 33 pazienti diversi. Tecniche di machine-learning supervisionate (i.e Support Vector Machines (SVM)), come prima condizione, e un approccio basato interamente sulle CNN, come seconda condizione, sono stati quindi utilizzati per classificare le patch come sane (He), con vasi ipertrofici (HBv), mostranti leukoplakia (Le) e con anse capillari intrapapillari (IPCL). Anche per questo dataset, una convalida incrociata dei dati è stata eseguita al fine di valutare le prestazioni della classificazione. Per quanto riguarda il primo obiettivo di individuazione dell’area tumorale, l’architettura con le prestazioni migliori è risultata essere ResNet con la configurazione a un solo layer e 8 filtri, mostrando un coefficiente di somiglianza medio tra l’area tumorale effettiva e quella individuata di 0.69 per i frame del dataset di orofaringe (OP) e 0.60 per i frame della cavità orale (OC), con il tempo computazionale richiesto per il rilevamento del sito del carcinoma per immagine più breve (i.e. tempo di inferenza), ossia 14 ms. Mentre per il problema di classificazione, le caratteristiche apprese dalle CNN con le migliori prestazioni sono state ottenute con Inception ResNet V2, mostrando valori di recall per He di 0.99, recall di Hbv di 0.95, recall di Le di 0.95 e infine recall di IPCL di 0.88 quando classificazione delle patch con SVM (prima condizione). L’approccio di classificazione basato interamente sulle CNN (seconda condizione) ha mostrato invece valori di recall per He di 1.00, per Hbv di 0.92, per Le di 0.97 e infine per IPCL di 0.88 utilizzato l’architettura ResNet V1 152. Considerando la totale assenza in letteratura di metodi di deep-learning per la segmentazione dei siti analizzati del distretto testa-collo (i.e. orofaringe e cavità orale) da cui trarre ispirazione, questo primo tentativo di rilevare automaticamente le aree affette da SCC dalle immagini endoscopiche ottenute con NBI può essere considerato un approccio efficace per l’individuazione delle aree patologiche. Inoltre, dato il breve tempo di inferenza necessario per la detezione dei siti tumorali per una singola immagine, il metodo può essere utilizzato in tempo reale. Per quanto riguarda la fase di classificazione dei tessuti delle immagini di laringoscopia ottenuta con NBI, entrambe le condizioni hanno sovraperformato lo stato dell’arte, il quale riportava valori di recall di He di 0.98, recall di Hbv di 0.94, recall di Le di 0.92 e infine recall di IPCL di 0.86. I risultati raggiunti sono stati ottenuti indipendentemente dalla definizione di parametri specifici dell’immagine o del paziente, rendendo quindi l’algoritmo uno strumento adeguato ad affrontare la complessità e l’alta variabilità dei tessuti patologici del tratto laringeo. Il lavoro è in collaborazione con il Dipartimento di Otorinolaringoiatria dell’Università di Brescia, per quanto riguarda il primo problema di segmentazione delle aree tumorali, e il Dipartimento di Robotica Avanzata dell’Istituto Italiano di Tecnologia (IIT) di Genova per la seguente parte di classificazione dei tessuti.

A framework for head and neck endoscopic image segmentation and classification for early-stage cancer diagnosis support

RUPERTI, MICHELA
2018/2019

Abstract

Early-stage diagnosis of head and neck cancer is of primary importance for lowering patient mortality or after treatment morbidity. The main form of head and neck cancer is the so called squamous cell carcinoma (SCC) and in its early-stages is associated with the presence of intrapapillary capillary loops (IPCL) and hypertrophic vessels (Hbv), as well as with the presence of pre-cancerous tissue conditions, such as leukoplakia (Le) and erythroplakia. SCC identification is a non-trivial task even for the experienced surgeon due to the complexity in the acquisition of in-vivo endoscopic images (i.e. limited field of view), the reduced image quality (i.e. noise, variation in illumination levels), the complexity of the treated anatomical district (high inter- and intra-patient variability). Recent developments in the field of deep learning techniques for the analysis of medical images have shown that algorithms based on convolutional neural networks (CNN) can prove to be valid tools to address cancer detection and tissue classification problems in other anatomical districts or at least with different type of images. Despite the challenges in diagnosis reported in the clinical literature and well- established surgical data science approaches in literature outside the field of head and neck tract, few efforts have been invested in computer-assisted diagnosis of different sub-sites of head and neck cancer. On these basis, the final goal of this thesis is investigating deep-learning strategies to support fast and accurate SCC diagnosis from endoscopic video-frames in narrow- band imaging (NBI), an optical-biopsy technique commonly used for screening and diagnosing head and neck cancer, reducing the risks linked to a biopsy. The strategy leans onto two consecutive methods. The first one is aimed at detecting and distinguishing pathological (affected by SCC) areas from non-pathological ones (healthy) by testing CNN-based methods for semantic segmentation. Secondly, the thesis is aimed at further investigating the detected carcinoma site, through the classification in four tissue classes: (i) healthy, (ii) hypertrophic vessels, (iii) leukoplakia, (iv) abnormal IPCL. This second approach takes advantage of learned features, instead of standard handcrafted ones, extracted using convolutional neural networks (CNNs) and it is exploited in two different conditions. Firstly, the CNN models used are only pre-trained on the ImageNet dataset, a large scale database of natural images. In the second condition tested, instead, CNNs are fine-tuned to allow the classification of endoscopic images. The aforementioned learned features are then used to classify the different tissue classes by means of a transfer learning process. Specifically to the first aim, in order to segment SCC, three different fully convolutional neural networks (FCNNs) were tested: U-Net, U-Net3 and different configurations of ResNet architecture. The experimental analysis was performed on two novel datasets collected by the Department of Otorhinolaryngology, Head and Neck Surgery at University of Brescia. Datasets are constituted by 102 and 116 NBI frames, extracted from 45 and 34 laryngoscopic videos of different patients in narrow-band imaging (NBI), respectively. Each of them is afferent to a different tract, the first one to the oral cavity tract and the other to the oropharyngeal tract. For both datasets, three-fold cross validation and data augmentation, mainly consisting in geometric transformations of the original images, was performed to evaluate the performance. The subsequent classification problem was investigated by testing six CNNs: VGG 16, Inception V4, ResNet V1 101, ResNet V1 152, ResNet V2 152, and Inception- ResNet V2. To test this approach, the learned features were extracted from the Laryngeal dataset, which is a publicly available dataset consisting of 1320 patches extracted from 33 laryngoscopic video frames in narrow-band imaging (NBI) acquired in actual clinical practice from 33 different patients. Support vector machines (SVMs), as first condition, and CNN-based approach, as second condition, were then used to classify patches as healthy (He) and with hypertrophic vessels (HBv), presentimg leukoplakia (Le) and with intraepithelial papillary capillary loops (IPCL). Three-fold cross validation was performed to evaluate the classification performance. The best performing FCNN for the segmentation task showed an overall median dice similarity coefficient of 0.69 for oropharingeal frames (OP) and 0.60 for the oral cavity frames (OC). Both values were obtained with ResNet – 1(2) blocks – 8 filters architecture, with the shortest computational time required for the detection of the carcinoma site per frame (i.e. inference time) of 14 ms. As regards the classification problem, the best-performing learned-feature set was achieved with Inception ResNet V2 resulting in a recall of He of 0.99, recall of Hbv of 0.95, recall of Le of 0.95 and lastly recall of IPCL of 0.88 when classifying patches with SVMs (first condition). Regarding the CNN-based classification approach (second condition) recall of He of 1.00, recall of Hbv of 0.92, recall of Le of 0.97 and lastly recall of IPCL of 0.88 were achieved. Considering the totally absence of deep-learning-based methods in the literature of the analyzed head and neck sub-districts (i.e. oropharynx and oral cavity) from which drawing inspiration, this first attempt trying to automatically detect areas affected by SCC from NBI video frames can be considered an effective approach for the segmentation of pathological areas in endoscopic videos, to be used also in real time given the small inference time per frame. Regarding the tissue classification stage on laryngeal NBI frames, both the conditions tested outperformed the state of the art which presented recall of He of 0.98, recall of Hbv of 0.94, recall of Le of 0.92 and lastly recall of IPCL of 0.86. Such results were achieved independently from the definition of image- or patient-specific parame- ters, making the algorithm a proper tool to face the complexity and high variability of laryngeal pathological tissues. The work is in collaboration with the Department of Otorhinolaryngology, Head and Neck Surgery, University of Brescia for the segmentation task and the Department of Advanced Robotics @ Istituto Italiano di Tecnologia (IIT) in Genoa, as regards the classification problem.
MOCCIA, SARA
S. MATTOS, LEONARDO
ING - Scuola di Ingegneria Industriale e dell'Informazione
25-lug-2019
2018/2019
La diagnosi precoce del cosiddetto tumore testa-collo risulta di vitale importanza al fine di ridurre la mortalità dei pazienti che ne sono affetti e/o l’insorgenza di nuove metastasi dopo il trattamento chirurgico. Il tumore testa-collo nel 95-98% dei casi si presenta sotto forma di carcinoma squamocellulare (SCC) e nei suoi stadi iniziali è spesso associato a diversi sintomi, tra i quali la presenza di anse papillo-capillari intraepiteliali (IPCL, acronimo in lingua inglese per Intraepithelial Papillary Capillary Loops) e vasi ipertrofici (Hbv, acronimo in lingua inglese per Hyperthrophic Vessels), nonchè la presenza di tessuti precancerosi, come la leucoplachia (Le) e l’eritroplachia. L’identificazione del carcinoma squamocellulare da immagini endoscopiche non è affatto semplice, anche per il chirurgo più esperto. Questo a causa della complessità insita nella procedura di acquisizione di immagini endoscopiche in vivo, quindi con un campo visivo limitato; per la ridotta qualità delle immagini, che possono presentare rumore e diversi livelli di illuminazione; infine per la complessità dei distretti anatomici trattati (i.e. cavo orale, orofaringe, laringe) e quindi la loro variabilità inter- e intra- paziente elevata. I recenti sviluppi nel campo delle tecniche di intelligenza artificiale (AI, acronimo in lingua inglese per Artificial Intelligence) per l’analisi di immagini mediche hanno mostrato come gli algoritmi di Deep Learning, basati su reti neurali convoluzionali (CNN), possano rivelarsi validi strumenti atti al riconoscimento dei siti tumorali e alla loro classificazione tessutale per quanto riguarda altri distretti anatomici. Nonostante le difficoltà nella diagnosi espresse dai clinici di questo particolare carcinoma e i promettenti approcci semi-automatici basati sull’intelligenza artificiale riportati nella letteratura scientifica al di fuori del distretto testa-collo, nessun tentativo è stato condotto su immagini endoscopiche riguardanti diversi sotto-distretti dell’area testa-collo con lo scopo di fornire una robusta procedura di diagnosi assistita. Partendo da questi presupposti, l’obiettivo che questa tesi si propone è lo studio di strategie di deep-Learning in grado di supportare la diagnosi del carcinoma squamocellulare nel distretto testa-collo, utilizzando immagini endoscopiche estratte da video acquisiti a banda stretta (NBI, acronimo in lingua inglese per Narrow Band Imaging), una tecnica di biopsia ottica comunemente utilizzata per lo screening e la diagnosi del tumore testa-collo, capace di ridurre i rischi legati a una biopsia. La strategia consta di due diversi e consecutivi metodi. Il primo ha lo scopo di individuare e distinguere le aree patologiche (affette da tumore squamocellulare) da quelle non patologiche (sane) testando metodi basati sulle CNN per la segmentazione semantica. In secondo luogo la tesi ha lo scopo di indagare ulteriormente il sito del carcinoma precedentemente rilevato, attraverso la classificazione in quattro diverse classi di tessuti: (i) sani, (ii) vasi ipertrofici, (iii) tessuto con leucoplachia, (iv) IPCL anormali. Questo secondo approccio sfrutta le caratteristiche delle immagini apprese dalle stesse CNN, anzichè quelle fornitegli manualmente ed è testato in due diverse condizioni. Come prima condizione, i modelli di CNN utilizzati sono solamente pre-addestrati su un ampio database di immagini naturali, ImageNet, costituito da circa 14 milioni di immagini. Nella seconda condizione testata, invece, le CNN sono messe a punto (tramite il cosiddetto fine-tuning), per consentire la classificazione delle immagini endoscopiche raffinando ulteriormente la performance. Le caratteristiche apprese in maniera automatica dagli algoritmi vengono quindi utilizzate per classificare le patch (piccole porzioni in cui le immagini sono state suddivise) delle immagini endoscopiche mediante un processo denominato transfer learning, ossia apprendimento tramite l’utilizzo di caratteristiche apprese su un altro set di immagini. In particolare, per il primo obiettivo, ossia per segmentare il carcinoma squamocellulare, sono state testate tre diverse architetture di CNN: U-Net, U-Net3 e diverse configurazioni dell’architettura ResNet. L’analisi sperimentale è stata eseguita su due dataset di immagini endoscopiche ottenute tramite NBI, ciascuno dei quali afferente a un tratto distinto del distretto testa-collo: la cavità orale e il tratto orofaringeo. Per la cavità orale le immagini a disposizione consistevano in 102 immagini endoscopiche ottenute tramite NBI da 45 diversi pazienti, mentre per il tratto orofaringeo il set di immagini era costituito da 116 immagini endoscopiche proveniente da 34 diversi pazienti. Al fine di ottenere una valida analisi dei dati, è stata eseguita una convalida incrociata dei dati suddividendo entrambi i dataset in tre differenti parti con medesima cardinalità. Per garantire che i dataset fossero di dimensioni appropriate per la fase di apprendimento (training, nel gergo dell’AI) delle architetture, sono stati incrementati generando ulteriori immagini (data augmentation, nel gergo dell’AI) prettamente tramite trasformazioni geometriche delle immagini originali. Il successivo problema di classificazione è stato esaminato testando sei diverse CNN: VGG 16, Inception V4, ResNet V1 101, ResNet V1 152, ResNet V2 152 e Inception- ResNet V2. Per validare questo approccio è stato utilizzato un dataset di immagini endoscopiche del tratto laringeo. Il dataset in questione è pubblicamente disponibile ed è costituito da 1320 patch estratte da 33 video laringoscopici, acquisiti tramite NBI, durante la pratica clinica da 33 pazienti diversi. Tecniche di machine-learning supervisionate (i.e Support Vector Machines (SVM)), come prima condizione, e un approccio basato interamente sulle CNN, come seconda condizione, sono stati quindi utilizzati per classificare le patch come sane (He), con vasi ipertrofici (HBv), mostranti leukoplakia (Le) e con anse capillari intrapapillari (IPCL). Anche per questo dataset, una convalida incrociata dei dati è stata eseguita al fine di valutare le prestazioni della classificazione. Per quanto riguarda il primo obiettivo di individuazione dell’area tumorale, l’architettura con le prestazioni migliori è risultata essere ResNet con la configurazione a un solo layer e 8 filtri, mostrando un coefficiente di somiglianza medio tra l’area tumorale effettiva e quella individuata di 0.69 per i frame del dataset di orofaringe (OP) e 0.60 per i frame della cavità orale (OC), con il tempo computazionale richiesto per il rilevamento del sito del carcinoma per immagine più breve (i.e. tempo di inferenza), ossia 14 ms. Mentre per il problema di classificazione, le caratteristiche apprese dalle CNN con le migliori prestazioni sono state ottenute con Inception ResNet V2, mostrando valori di recall per He di 0.99, recall di Hbv di 0.95, recall di Le di 0.95 e infine recall di IPCL di 0.88 quando classificazione delle patch con SVM (prima condizione). L’approccio di classificazione basato interamente sulle CNN (seconda condizione) ha mostrato invece valori di recall per He di 1.00, per Hbv di 0.92, per Le di 0.97 e infine per IPCL di 0.88 utilizzato l’architettura ResNet V1 152. Considerando la totale assenza in letteratura di metodi di deep-learning per la segmentazione dei siti analizzati del distretto testa-collo (i.e. orofaringe e cavità orale) da cui trarre ispirazione, questo primo tentativo di rilevare automaticamente le aree affette da SCC dalle immagini endoscopiche ottenute con NBI può essere considerato un approccio efficace per l’individuazione delle aree patologiche. Inoltre, dato il breve tempo di inferenza necessario per la detezione dei siti tumorali per una singola immagine, il metodo può essere utilizzato in tempo reale. Per quanto riguarda la fase di classificazione dei tessuti delle immagini di laringoscopia ottenuta con NBI, entrambe le condizioni hanno sovraperformato lo stato dell’arte, il quale riportava valori di recall di He di 0.98, recall di Hbv di 0.94, recall di Le di 0.92 e infine recall di IPCL di 0.86. I risultati raggiunti sono stati ottenuti indipendentemente dalla definizione di parametri specifici dell’immagine o del paziente, rendendo quindi l’algoritmo uno strumento adeguato ad affrontare la complessità e l’alta variabilità dei tessuti patologici del tratto laringeo. Il lavoro è in collaborazione con il Dipartimento di Otorinolaringoiatria dell’Università di Brescia, per quanto riguarda il primo problema di segmentazione delle aree tumorali, e il Dipartimento di Robotica Avanzata dell’Istituto Italiano di Tecnologia (IIT) di Genova per la seguente parte di classificazione dei tessuti.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
2019_07_Ruperti.pdf

solo utenti autorizzati dal 15/07/2022

Descrizione: Testo della tesi
Dimensione 15.17 MB
Formato Adobe PDF
15.17 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/149053