Machine learning for tissue classification in laryngeal endoscopic videos

Squamous Cell Carcinoma (SCC) is the most common cancer of the laryngeal tract, arising in 95% to 98% of all cases. It is well know from the medical literature that early-stage laryngeal cancer detection can significantly lower mortality rate and pre- serve both laryngeal anatomy and vocal fold function. However, early stage diagnosis is still challenging due to the late onset of symptoms and to the small modifications of the mucosa, which can pass unnoticed to human eye. Despite the clinical challenges, very few efforts have been invested in the literature of computer-aided diagnosis in laryngoscopy. Driven by such a lack, this thesis proposes a novel approach to the computer-aided classification of malignant, pre-malignant and healthy laryngeal tis- sues in narrow-band imaging (NBI) endoscopic videos. Inspired by the state of the art on classification algorithms for surgical data science applications in different anatomical sites, our approach consists in image texture analysis coupled with machine learning classification. Different texture descriptors are tested: (i) first order statistics (im- age intensity mean, variance, entropy), (ii) classical texture descriptors based on local binary patterns (LBP) and gray-level co-occurrence matrix (GLCM) and (iii) convolu- tion neural network (CNN)-based features. In particular, deep CNNs pre-trained on a different (not-clinical) dataset are used as feature extractors. In this work, CNN-based features are obtained employing AlexNet and GoogLeNet architecture. Different fea- ture classifiers are tested, showing that Support vector machines (SVM) perform the best. To deal with classification uncertainty, we propose a novel method that features an intrinsic measure of confidence to cope for non-reliable classification results. The study is conducted on a database of five-hundred patches, manually extracted from thirty-nine NBI laryngoscopic videos acquired during clinical examinations of patient affected by SCC. The highest accurate-rate (median = 98%, inter-quartile range (IQR) = 10%) is obtained concatenating together LBP and AlexNet based features, prov- ing that such a combination allows a more comprehensive description of the image. Moreover, when applying a threshold to the SVM classification confidence, the median accuracy-rate increases up to 100%(IQR=0%), demonstrating that the proposed ap- proach leads to high-performance classification results. When applying the only one so far proposed method to our dataset, the median accuracy-rate significantly decrease down to 42% (IQR = 48%), proving this research to be a considerable advance in the state of the art of computer-aided laryngeal tissue classification. It is worth not- ing that a 100% accuracy is achieved independently from the definition of image- or patient-specific parameters, making the algorithm a proper tool to face the complexity and high variability of laryngeal pathological tissue data analysis. As side-effect of our research, our expectation is that the research on laryngeal tissue classification will be powered, as happened for other anatomical sites, such as colon and gastro-intestinal tract.

La forma piú diffusa di cancro alla laringe é il Carcinoma Squamo Cellulare (SCC), che rappresenta il 98% dei tumori alla laringe. Come ampiamente dimostrato in letteratura, il grado di invasivitá della massa tumorale al momento della diagnosi é significativamente correlato all'aumento della mortalitá e alla perdita di funzionalitá delle corde vocali. La diagnosi di SCC nel suo stadio precoce é quindi fondamentale per la prognosi, anche se la stessa risulta allo stato dell'arte ancora difficile a causa delle piccole modificazioni della mucosa che possono facilmente sfuggire all’occhio umano. Nonostante ció, pochi studi in letteratura hanno affrontato il tema della diagnosi automatica di lesioni cancerose in laringoscopia. Per questo motivo, il presente lavoro di tesi propone un approccio innovativo per classificare automaticamente tessuti sani o affetti da lesioni maligne e pre-maligne. L'analisi é effettuata su immagini endoscopiche, acquisite sfruttando la recente tecnologia del Narrow Band Imaging (NBI). Il nostro approccio consiste nell'estrarre informazioni legate alla texture dell'immagine, classificate poi con algoritmi di machine learning. L'ispirazione nasce dallo studio dei piú recenti algoritmi di classificazione di tessuti, proposti, nell’ambito di Surgical Data Science, per altri distretti anatomici. I descrittori di texture utilizzati in questo studio sono: (i) indici statisti del primo ordine (media, varianza e entropia dell'intensità dell'immagine); (ii) classici descrittori di texture come Local Binary Pattern (LBP) e matrici di co-occorrenza (GLCM); (iii) reti neurali convoluzionali (CNN). In particolare, sono state utilizzate due reti (AlexNet e GoogleNet) con architetture profonde, allenate su database di immagini non mediche. Per quanto riguarda la classificazione, sono stati testati diversi algoritmi. Le migliori performance sono state raggiunte con le Support Vector Machines (SVM). Per affrontare l'incertezza della classificazione, viene proposto un nuovo metodo che offre una misura intrinseca di confidenza, in modo da gestire classificazioni poco affidabili. Lo studio é condotto su un database di cinquecentoquaranta patch, estratte manualmente da trentanove registrazioni video di laringoscopie in NBI, acquisite durante gli esami clinici di pazienti affetti da SCC. La massima accuratezza (mediana = 98%, interquartile (IQR) = 10%) é ottenuta concatenando insieme i descrittori ottenuti con LBP e AlexNet, dimostrando cosí che una combinazione di descrittori diversi permette di ottenere una descrizione piú completa dell'immagine. Inoltre, quando si applica una soglia di confidenza alla classificazione con SVM, la mediana dell'accuratezza aumenta fino al 100% (IQR = 0%), dimostrando che l'approccio proposto porta a risultati di classificazione ad alte prestazioni. Quando si applica l'unico metodo finora proposto in quest'ambito al nostro set di dati, la mediana dell'accuratezza é del 42% (IQR = 48%) e quindi significativamente più bassa, dimostrando che questa ricerca é un notevole progresso nello stato dell'arte della classificazione automatica dei tessuti della laringe. Vale la pena notare che si ottiene una precisione del 100% indipendentemente dalla definizione di parametri dell'immagine o specifici del paziente, rendendo l'algoritmo uno strumento adeguato per affrontare la complessitá e la variabilitá dell'analisi del tessuto patologico della laringe. Come effetto del nostro studio, la nostra aspettativa é che la ricerca sulla classificazione dei tessuti della laringe si sviluppi sempre di piú, come é avvenuto per altri siti anatomici quali il colon e il tratto gastro-intestinale.