Squamous cell carcinoma (SCC) is the most widespread epithelial neoplasm that affects the larynx. Early-stage diagnosis and timely treatment are of primary importance to reduce patient morbidity and improve patient quality of life. Narrow-band imaging (NBI) laryngoscopy is an optical-biopsy technique commonly used for SCC screening and diagnosing, reducing the biopsy risks. Since the laryngoscopy procedure takes some minutes, there is a large amount of frames to be reviewed to make the diagnosis and planning procedures. It is widely recognized that, from the clinician’s side, reviewing a laryngoscopic video is a labour-intensive operation. While focusing on particular structures during the video inspection, clinicians may miss important clues indicating suspicious conditions (such as early-stage SCC). The reviewing process could be further compromised by the presence of uninformative video portions, which prolong the revision time. In order to help relieving clinician’s workload, an automated informative-frame selection strategy is a valuable solution. This can be beneficial also for surgical data science algorithms by (i) lowering the amount of computational power required, and (ii) avoiding the processing of frames that do not show structures of interest. Several approaches have been proposed in the field of endoscopy but none of them achieved such performance as to translate the algorithms into the actual clinical practice. One possible solution is to develop deep learning (DL) models that, as shown by researchers in some SDS fields, are valuable tools for image analysis, outperforming standard learning approaches. Starting from these considerations in the literature, the goal of this thesis is to develop a deep learning-based strategy for the automatic selection of informative laryngoscopic-video frames. This could potentially help relieving clinician's workload and increase the diagnostic accuracy reducing the number of meaningless input data for image-based classification algorithms. The DL strategy leans on transfer learning, which is used to extract learned features by means of six different convolutional neural networks (CNNs) that were pre-trained on natural images. By using these features, support vector machines (SVMs) and fine-tuned CNNs-based approach were used to classify frames as informative (I) and in three classes of uninformative to tackle major challenges typical of the laryngeal district (e.g., movement of swallowing muscles and vocal folds, presence of saliva and specular reflections due to the smooth and wet laryngeal surface, varying illumination conditions) such as blurred (B), with saliva or specular reflections (S) and underexposed (U). The proposed approach was experimentally tested on 720 frames from 18 NBI laryngoscopic videos of 18 different subjects affected by SCC recorded during the clinical practice. The method demonstrated to be robust, achieving an overall median classification recall among four frame classes (i.e., B, I, S, U) for the best-performing learned-feature (i.e., VGG 16) set, coupled with transfer learning and SVM multi-class classification, of 93.61% (max recall = 97.22% for the informative frames). The overall median recall among the four frame classes achieved with the fine-tuned VGG 16-based classification was 92.64% (max recall = 97.78% for the informative frames). These results outperformed the ones achieved in the literature with handcrafted features and the ones obtained with training from scratch. The proposed methodology has been also tested on a fully labeled video sequence. Some misclassifications occurred (~ 8% for I) mainly for challenging frames, which were not trivial to classify also for humans. Considering the absence in literature of DL-based methods to informative frame selection in endoscopic videos, the promising results achieved in this work are expected to provide major contribution towards lowering the degree of manual intervention required by computer-assisted systems intended to analyze and summarize the endoscopic video content and increasing their performance.

Il carcinoma a cellule squamose (squamous cell carcinoma, SCC) è la forma più comune di neoplasia epiteliale che colpisce la laringe. La diagnosi precoce e l'inizio tempestivo delle cure sono di vitale importanza al fine di ridurre la morbilità del paziente e migliorare i risultati del trattamento chirurgico. La laringoscopia in modalità banda stretta (narrow-band imaging, NBI) è divenuta la tecnica standard di biopsia ottica per lo screening e la diagnosi, in quanto riduce i rischi legati alla biopsia. Tuttavia, poiché l'acquisizione di un video di laringoscopia richiede diversi minuti, ogni video contiene un numero elevato di fotogrammi che devono essere successivamente analizzati durante la procedura di revisione al fine di effettuare la diagnosi e/o la pianificazione di interventi chirurgici. Dal punto di vista medico è infatti ampiamente riconosciuto che la revisione di un video endoscopico è un'operazione lunga e faticosa. Infatti, in questa occasione, anche al medico più esperto possono sfuggire importanti indizi che indicano condizioni sospette (ad esempio tumori in fase iniziale). Inoltre, la presenza di fotogrammi video che non presentano contenuto informativo porta ad un inutile aumento del tempo impiegato per la revisione. Al fine di fornire il personale medico di strumenti utili per far fronte a queste problematiche, una soluzione interessante è lo sviluppo di una strategia in grado di selezionare in modo automatico i fotogrammi informativi. Questa tecnica può essere utile anche per i metodi di classificazione automatica basata su immagini, apportando benefici in termini di risultati di classificazione (i) riducendo la quantità di potenza computazionale richiesta e (ii) evitando l'elaborazione di fotogrammi che non mostrano strutture di interesse. Diversi approcci sono stati proposti in letteratura per superare i suddetti aspetti critici ma nessuno di essi ha raggiunto performance elevate tali da introdurre gli algoritmi nella pratica clinica. Una possibile soluzione è lo sviluppo di metodi basati sul deep learning (DL) che, come riportato in letteratura, si sono dimostrati validi e promettenti strumenti per l'analisi di immagini, spesso migliori rispetto ai classici metodi di apprendimento automatico. Partendo da questi presupposti, l'obiettivo che questa tesi si propone è di sviluppare un metodo basato su DL per la selezione automatica di fotogrammi con contenuto informativo nei video di laringoscopia. La strategia di DL proposta si basa sulla tecnica del transfer learning che è stata implementata per estrarre dalle immagini caratteristiche apprese (in gergo learned features) mediante l'utilizzo di sei diverse reti neurali convoluzionali (convolutional neural netwrorks, CNNs) pre-allenate su un dataset di immagini naturali. Successivamente, per tenere in considerazione le tipiche difficoltà che si incontrano durante l'analisi di fotogrammi del distretto laringeo (come ad esempio il movimento dei muscoli impiegati nella deglutizione e delle corde vocali, la presenza di saliva e di riflessi speculari dovute alla superficie liscia e bagnata dell'epitelio, e le condizioni di illuminazione variabili), i fotogrammi sono stati classificati in quattro diverse classi (i) informativi (I), (ii) sfocati (B), (iii) con presenza di saliva o riflessioni speculari (S), (iv) sottoesposti (U). Due diversi classificatori sono stati impiegati: support vector machines (SVMs) e fine-tuned CNN. L'approccio proposto è stato validato su 720 fotogrammi tratti da 18 video di laringoscopia NBI appartenenti a 18 diversi pazienti affetti da SCC. Il metodo si è dimostrato essere robusto, ottenendo un valore di sensitività mediana globale tra le quattro classi di fotogrammi (i.e., B, I, S, U) per il set di learned features che ha ottenuto le migliori prestazioni (i.e., VGG 16) utilizzando come classificatore le SVMs multi-classe, pari al 93.61% (sensitività massima = 97.22% per i fotogrammi informativi). La sensitività mediana complessiva tra le quattro classi di fotogrammi raggiunta utilizzando come classificatore la rete VGG 16 fine-tuned è pari al 92.64% (sensitività massima = 97.78% per i fotogrammi informativi). Questi risultati hanno sovraperformato sia l'approccio basato su handcrafted features proposto in letteratura che i risultati ottenuti con un allenamento from scratch della rete VGG 16. Applicato ad una sequenza video completamente annotata, il metodo ha erroneamente classificato alcuni fotogrammi (~ 8% per I) che, tuttavia, risultano di difficile classificazione anche per l'occhio umano. Considerando l'assenza in letteratura di metodi basati sul DL per la selezione dei fotogrammi informativi nei video endoscopici, i promettenti risultati ottenuti potrebbero fornire un importante contributo nel diminuire l'intervento manuale richiesto dai sistemi computer-assisted che vengono utilizzati per analizzare il contenuto dei video endoscopici aumentandone la performance.

Deep learning models for informative-frame selection in laryngoscopic videos

PATRINI, ILARIA
2019/2020

Abstract

Squamous cell carcinoma (SCC) is the most widespread epithelial neoplasm that affects the larynx. Early-stage diagnosis and timely treatment are of primary importance to reduce patient morbidity and improve patient quality of life. Narrow-band imaging (NBI) laryngoscopy is an optical-biopsy technique commonly used for SCC screening and diagnosing, reducing the biopsy risks. Since the laryngoscopy procedure takes some minutes, there is a large amount of frames to be reviewed to make the diagnosis and planning procedures. It is widely recognized that, from the clinician’s side, reviewing a laryngoscopic video is a labour-intensive operation. While focusing on particular structures during the video inspection, clinicians may miss important clues indicating suspicious conditions (such as early-stage SCC). The reviewing process could be further compromised by the presence of uninformative video portions, which prolong the revision time. In order to help relieving clinician’s workload, an automated informative-frame selection strategy is a valuable solution. This can be beneficial also for surgical data science algorithms by (i) lowering the amount of computational power required, and (ii) avoiding the processing of frames that do not show structures of interest. Several approaches have been proposed in the field of endoscopy but none of them achieved such performance as to translate the algorithms into the actual clinical practice. One possible solution is to develop deep learning (DL) models that, as shown by researchers in some SDS fields, are valuable tools for image analysis, outperforming standard learning approaches. Starting from these considerations in the literature, the goal of this thesis is to develop a deep learning-based strategy for the automatic selection of informative laryngoscopic-video frames. This could potentially help relieving clinician's workload and increase the diagnostic accuracy reducing the number of meaningless input data for image-based classification algorithms. The DL strategy leans on transfer learning, which is used to extract learned features by means of six different convolutional neural networks (CNNs) that were pre-trained on natural images. By using these features, support vector machines (SVMs) and fine-tuned CNNs-based approach were used to classify frames as informative (I) and in three classes of uninformative to tackle major challenges typical of the laryngeal district (e.g., movement of swallowing muscles and vocal folds, presence of saliva and specular reflections due to the smooth and wet laryngeal surface, varying illumination conditions) such as blurred (B), with saliva or specular reflections (S) and underexposed (U). The proposed approach was experimentally tested on 720 frames from 18 NBI laryngoscopic videos of 18 different subjects affected by SCC recorded during the clinical practice. The method demonstrated to be robust, achieving an overall median classification recall among four frame classes (i.e., B, I, S, U) for the best-performing learned-feature (i.e., VGG 16) set, coupled with transfer learning and SVM multi-class classification, of 93.61% (max recall = 97.22% for the informative frames). The overall median recall among the four frame classes achieved with the fine-tuned VGG 16-based classification was 92.64% (max recall = 97.78% for the informative frames). These results outperformed the ones achieved in the literature with handcrafted features and the ones obtained with training from scratch. The proposed methodology has been also tested on a fully labeled video sequence. Some misclassifications occurred (~ 8% for I) mainly for challenging frames, which were not trivial to classify also for humans. Considering the absence in literature of DL-based methods to informative frame selection in endoscopic videos, the promising results achieved in this work are expected to provide major contribution towards lowering the degree of manual intervention required by computer-assisted systems intended to analyze and summarize the endoscopic video content and increasing their performance.
MOCCIA, SARA
MATTOS, LEONARDO S.
ING - Scuola di Ingegneria Industriale e dell'Informazione
29-apr-2020
2019/2020
Il carcinoma a cellule squamose (squamous cell carcinoma, SCC) è la forma più comune di neoplasia epiteliale che colpisce la laringe. La diagnosi precoce e l'inizio tempestivo delle cure sono di vitale importanza al fine di ridurre la morbilità del paziente e migliorare i risultati del trattamento chirurgico. La laringoscopia in modalità banda stretta (narrow-band imaging, NBI) è divenuta la tecnica standard di biopsia ottica per lo screening e la diagnosi, in quanto riduce i rischi legati alla biopsia. Tuttavia, poiché l'acquisizione di un video di laringoscopia richiede diversi minuti, ogni video contiene un numero elevato di fotogrammi che devono essere successivamente analizzati durante la procedura di revisione al fine di effettuare la diagnosi e/o la pianificazione di interventi chirurgici. Dal punto di vista medico è infatti ampiamente riconosciuto che la revisione di un video endoscopico è un'operazione lunga e faticosa. Infatti, in questa occasione, anche al medico più esperto possono sfuggire importanti indizi che indicano condizioni sospette (ad esempio tumori in fase iniziale). Inoltre, la presenza di fotogrammi video che non presentano contenuto informativo porta ad un inutile aumento del tempo impiegato per la revisione. Al fine di fornire il personale medico di strumenti utili per far fronte a queste problematiche, una soluzione interessante è lo sviluppo di una strategia in grado di selezionare in modo automatico i fotogrammi informativi. Questa tecnica può essere utile anche per i metodi di classificazione automatica basata su immagini, apportando benefici in termini di risultati di classificazione (i) riducendo la quantità di potenza computazionale richiesta e (ii) evitando l'elaborazione di fotogrammi che non mostrano strutture di interesse. Diversi approcci sono stati proposti in letteratura per superare i suddetti aspetti critici ma nessuno di essi ha raggiunto performance elevate tali da introdurre gli algoritmi nella pratica clinica. Una possibile soluzione è lo sviluppo di metodi basati sul deep learning (DL) che, come riportato in letteratura, si sono dimostrati validi e promettenti strumenti per l'analisi di immagini, spesso migliori rispetto ai classici metodi di apprendimento automatico. Partendo da questi presupposti, l'obiettivo che questa tesi si propone è di sviluppare un metodo basato su DL per la selezione automatica di fotogrammi con contenuto informativo nei video di laringoscopia. La strategia di DL proposta si basa sulla tecnica del transfer learning che è stata implementata per estrarre dalle immagini caratteristiche apprese (in gergo learned features) mediante l'utilizzo di sei diverse reti neurali convoluzionali (convolutional neural netwrorks, CNNs) pre-allenate su un dataset di immagini naturali. Successivamente, per tenere in considerazione le tipiche difficoltà che si incontrano durante l'analisi di fotogrammi del distretto laringeo (come ad esempio il movimento dei muscoli impiegati nella deglutizione e delle corde vocali, la presenza di saliva e di riflessi speculari dovute alla superficie liscia e bagnata dell'epitelio, e le condizioni di illuminazione variabili), i fotogrammi sono stati classificati in quattro diverse classi (i) informativi (I), (ii) sfocati (B), (iii) con presenza di saliva o riflessioni speculari (S), (iv) sottoesposti (U). Due diversi classificatori sono stati impiegati: support vector machines (SVMs) e fine-tuned CNN. L'approccio proposto è stato validato su 720 fotogrammi tratti da 18 video di laringoscopia NBI appartenenti a 18 diversi pazienti affetti da SCC. Il metodo si è dimostrato essere robusto, ottenendo un valore di sensitività mediana globale tra le quattro classi di fotogrammi (i.e., B, I, S, U) per il set di learned features che ha ottenuto le migliori prestazioni (i.e., VGG 16) utilizzando come classificatore le SVMs multi-classe, pari al 93.61% (sensitività massima = 97.22% per i fotogrammi informativi). La sensitività mediana complessiva tra le quattro classi di fotogrammi raggiunta utilizzando come classificatore la rete VGG 16 fine-tuned è pari al 92.64% (sensitività massima = 97.78% per i fotogrammi informativi). Questi risultati hanno sovraperformato sia l'approccio basato su handcrafted features proposto in letteratura che i risultati ottenuti con un allenamento from scratch della rete VGG 16. Applicato ad una sequenza video completamente annotata, il metodo ha erroneamente classificato alcuni fotogrammi (~ 8% per I) che, tuttavia, risultano di difficile classificazione anche per l'occhio umano. Considerando l'assenza in letteratura di metodi basati sul DL per la selezione dei fotogrammi informativi nei video endoscopici, i promettenti risultati ottenuti potrebbero fornire un importante contributo nel diminuire l'intervento manuale richiesto dai sistemi computer-assisted che vengono utilizzati per analizzare il contenuto dei video endoscopici aumentandone la performance.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
2020_04_Patrini.pdf

solo utenti autorizzati dal 01/04/2023

Descrizione: Testo della tesi
Dimensione 20.3 MB
Formato Adobe PDF
20.3 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/154626