Learning-based classification of informative endoscopic frames with applications in laryngoscopy

Laryngeal malignancies in 95% to 98% of the cases take the form of squamous cell carcinoma, with a mortality rate of 3.3/100,000 for men and of 0.3/100,000 for women in Italy. Early-stage diagnosis of laryngeal cancer is of primary importance to reduce patient morbidity. Endoscopy is commonly used for screening purposes, reducing the risks linked to a biopsy but at the cost of some drawbacks, such as the time consuming and focus intensive process of data review for diagnostic and planning procedures. In order to help relieving clinician's workload, automatic video processing techniques are being developed, such as image stitching or computer-aided diagnostics. In this respect, it is recognizable a lack for automated informative frame selection strategies, aiming at reducing the input data size and provide for better processing outputs. A machine-learning approach to informative frame selection is therefore presented in this Thesis; it has the potential to be applied to other districts than the laryngeal one as well. This thesis presents a strategy for the automatic selection of informative frames, which has the potential to lower the amount of endoscopic data, reducing the surgeon workload. Such strategy can be exploited as a pre-processing step in automatic computer-aided diagnostic systems or stitching algorithms for endoscopic video expansion. The proposed classification method is based on intensity, keypoint and image spatial content features. It follows a learning-based approach to classify frames as informative (I), blurred (B), with saliva or specular reflections (S), and underexposed (U). When tested on a balanced set of 720 images from 18 different laryngoscopic videos of 18 different patients, a classification recall of 91% was achieved for I, significantly overcoming three state of the art methods (Wilcoxon rank-signed test, significance level = 0.05). When tested on one complete labeled video sequence, some misclassifications occurred (~17% for I), but all errors regarded frames that are challenging to classify also for the human eye. Qualitative analysis was also performed using the other 17 videos, showing reasonable classification performance, as assessed by visual inspection. The proposed method significantly outperformed other methods in the literature, being much simpler to implement since no threshold tuning or setting is required. Due to the high performance in identifying informative frames, the approach is a valuable tool to perform informative frame selection, which can be applied in different fields, such us computer-assisted diagnosis and endoscopic view expansion.

I tumori della laringe sono composti in una frazione compresa tra il 95% ed il 98% dei casi da carcinoma a cellule squamose, con una mortalità annua di 3.3/100,000 uomini e di 0.3/100,000 donne in Italia. Nell'ottica di sviluppare strumenti per la diagnosi preventiva, l'endoscopia è divenuta la tecnica standard per lo screening, poiché riduce i rischi legati alla biopsia, che permane la tecnica standard di diagnosi. Vanno, però, riconosciuti alcuni svantaggi all'endoscopia, ed in particolare la lunga e faticosa procedura di revisione dei video acquisiti per la diagnosi e la pianificazione di interventi. Al fine di fornire il personale medico di strumenti per far fronte a detti svantaggi, sono in fase di sviluppo strategie automatiche di foto-composizione e di diagnosi al calcolatore. Tuttavia, queste tecniche difettano di una strategia automatica di selezione dei fotogrammi con contenuto informativo, la quale abbia come obiettivo quello di ridurre la dimensione dei dati in ingresso e migliorare la qualità dei risultati. Pertanto, si presenta una strategia basata sul machine-learning, e si discuterà del suo potenziale per altri distretti oltre a quello della laringe. La classificazione proposta si basa su diverse caratteristiche, come intensità, keypoint e contenuto spaziale dei fotogrammi e distingue i fotogrammi in informativi (I), sfocati (B), con saliva o riflessioni speculari (S), e sottoesposti (U). Applicato ad un insieme bilanciato di 720 immagini tratte da 18 differenti video di laringoscopie, il metodo ha ottenuto un valore di classification recall del 91% per I, statisticamente maggiore di quello di tre metodi tratti dallo stato dell'arte (Wilcoxon rank-signed test, significance level = 0.05). Applicato ad una sequenza video completa e annotata, il metodo ha classificato erroneamente alcuni fotogrammi (~17% for I), che, tuttavia, sono di difficile classificazione anche per l'occhio umano. Si presenta anche un'analisi qualitativa dei rimanenti 17 video, che dimostrano una performance ragionevole, come dimostrato da una analisi visiva dei risultati. Il metodo proposto ha ottenuto risultati significativamente migliori rispetto ai metodi comparati dalla letteratura, essendo inoltre più semplice da implementare, poiché non richiede alcuna impostazione manuale dei parametri.