This present thesis concerns the study of Lung neuroendocrine neoplasms, generally defined with the acronym Lung-NENs, which represent a family of neoplasms sho- wing neuroendocrine di↵erentiation and which include both indolent tumors with long-term life expectancy, and aggressive tumors with negative prognosis. These tumors develop from the neuroendocrine cells of the basal layer of the bron- chial epithelium, which are named Kultchitzsky cells. As neuroendocrine tumors, all of them present the expression of neuroendocrine markers such as Chromogranin A and Synaptophysine. Lung-NENs are rare neuroendocrine tumors with very low incidence (approxima- tely 0.2 to 2 cases per 100000 each year in the United States and Europe). However, probably due to improvements in the detection at the early stages of the disease and the increase in population survival, their incidence is increasing. Current classification systems have proved inconsistent and ine↵ective in reflecting tumor severity. Indeed, it happens that sometimes tumors classified as malignant behave indolently, while benign tumors have a dismal disease course. This hete- rogeneity in tumor progression leads to diagnostic discrepancies and di culties in establishing the appropriate therapeutic treatments. The final goal of this thesis is to identify classes that are more consistent with the actual clinical course and to distinguish those tumors which have been brought together within the same class, but that could benefit from di↵erent therapeutic approaches. Currently, the gold standard for the diagnosis definition of neuroendocrine tumor is the histological analysis of tissue samples taken by biopsy or surgical resection, which consists of a visual inspection by the pathologist of a small high-intensity portion of the morphological sample (called ”hotspot”). From this evaluation the degree and the stage are defined. The degree is a measure of the tumor aggressiveness and it depends on both the percentage of necrosis and on the assessed proliferation rate in the selected area, estimated in clinical practice through the mitotic count (i.e. the number of mitotic figures in an area of 2 mm2). For the definition of the stage, instead, we use the TNM system proposed by the American Joint Committee on Cancer, which is the most commonly used. According to this system, the stage contribute is determined by: the tumor size and location (T), the possible spread of it to the near located lymphnodes (N ) and the presence of metastases (M). According to the 2015 WHO classification, four histological variants of Lung- NENs can be identified: typical carcinoid (CT), atypical carcinoid (AC), large cell neuroendocrine carcinoma (LCNEC), small cell carcinoma (SCLC). The classification criteria include the number of mitoses per 2 mm2 of area, the presence/absence of necrosis, the cytological and histological characteristics (such as cell size and shape, overall architecture, etc.), and the detection for neuroendocrine markers through immunohistochemistry. On the other hand, the degree is determi- ned exclusively on the basis of diagnosis: TCs are considered as low grade tumors, ACs as intermediate grade tumors, SCLCs and LCNECs as high grade tumors. Complete surgical resection is the only curative treatment. The procedure currently applied in clinical practice presents some criticalities, since the assessment of tumor proliferation is subjective and it depends on the pathologist’s interpretation. Indeed, the mitotic count is not suitable to represent the tumor proliferative capability, since the mitotic figures are di cult to identify by the pathologist and therefore underesti- mated. This measure does not take into account the cells that are preparing them- selves for the division (in interphase), but have not entered yet the mitotic phase of the cell cycle. Furthermore, the quantification of the tumor proliferative capability involves only a limited portion area and this leads to a huge loss of reproducibility and to a dramatic simplification of tumor heterogeneity, which is a potential source of information at the prognostic level. In order to overcome these limitations, the estimation of the proliferation rate should be performed using the Ki67 labeling in- dex (Ki67-LI), which is defined as the percentage of Ki67 positive cells in a hotspot region. The Ki67 antigen is a non-histone nuclear protein present during all active phases of the cell cycle (G1, S, G2, M), but it is absent in non-proliferating cells (G0). Some studies show that Ki67 expression has a strong relationship with tumor metastasis, staging and cellular di↵erentiation and for these reasons Ki67 is consi- dered a predictive and prognostic marker for the diagnosis and treatment of tumors. The protein can be detected in histologies through a specific immunohistochemical staining, as a result of which the nuclei of 3,3’-diaminobenzidine (DAB) staining cells are brown, while negative cell nuclei, counter-stained with hematoxylin, appear blue. With no doubts, Ki67-LI is far more reliable than traditional mitotic count, since it covers a wider spectrum of the mitotic process in contrast to the mitotic spindle observed histologically. Despite this, its use in clinical practice is still highly controversial due to its variability determined by intra-tumor heterogeneity. In fact, the lack of a standardized procedure, together with the conservative approach in the medical field, prevents the spread and application of this index in the management of some pathologies, among which the pulmonary neuroendocrine tumors, for which the traditional mitotic count remains the main criterion of diagnosis. However, the evaluation of Ki67-LI is also limited to a region of hotspot, su- bjectively chosen by the pathologist based on his experience. This leads to non- reproducible, inaccurate and unreliable results. In this framework, the introduction of computational methods capable of providing a quantitative description of Ki67 throughout the histological image is therefore necessary, because that should decrea- se the inter-observer variability due to the interpretation of individual pathologists and it should lead to more reliable results, with less time and e↵ort. Based on this evidence, the aim of this thesis is to use mathematical tools to analyze the complexity of the spatial distribution of positive Ki67 cells, extended to the entire histological image. We therefore want to develop an objective and reliable method that provides useful information about the aggressiveness of the tumor and the patient’s prognosis, by exploiting the information of the intra-tumor heterogeneity of Ki67. This would make it possible to distinguish patients in new clinical categories for precision medicine and to develop new specific treatments for the resolution of this pathology. The analysis of the images is performed on histolo- gical sections stained by Ki67 immunohistochemistry, from surgical resections. Once the Ki67 + cells are localized, intra-tumor heterogeneity is assessed by calculating numerous parameters, which could be translated into histopathology as descriptors of complexity. They belong to four main categories: spatial statistics, graph theory, fractality and entropy, based on the di↵erent interpretation of the pattern. Below is reported a brief description of these indices. Spatial statistics Spatial statistics functions allow to distinguish if cell division occurs randomly or if there is a clustering tendency. The underlying hypothesis is that the recorded cell centers are independent events, whose occurrence in the window of observation is a random variable. Graph Theory In this case, positive Ki67 cells centers have been interpreted as graph nodes and the connections are established for the pairs of nodes whose Euclidean distance was smaller than a threshold d, with d equal to 25,50,75 μm. For each of the three d- dependet graphs a consistent number of features have been extracted, both local and global. The adjective global refers to the scalar indices which are related to the whole graph; conversely, the local features are vectors of N elements, each associated to a graph node. In order to summarize the distribution in a single value, 16 indices from descriptive statistics have been adopted, such as kurtosis and standard deviation. The indices obtained from the graphs represent the structural organization of the tissue and allow to distinguish between healthy tissues and pathological tissues. The huge number of parameters encompass general connectivity features, distance-based measurements and spectral parameters. Fractality Fractal geometry is applied in the histopathological field, with the aim of representing the distribution and morphology of cells. The parameter emerging from this analysis is the fractal dimension, which has been estimated using the ”box-counting” method and considering the following box sizes: 20, 40, 80, 160, 320, 640, 1280, 3560 μm. The fractal dimension was also calculated according to the Higuchi method, on the base of the 1D data point series derived from image projection on the x and y axes. Entropy Shannon entropy provides the quantification of the information content associated with stochastic events. Entropy allows to quantify the degree of complexity of cell distribution in histological samples and therefore it allows to distinguish between the tumor and the healthy tissue. For this application, the stochastic event considered is ”number of boxes, entirely included in the area of interest, containing exactly N points”. Di↵erent grids with di↵erent box sizes (20, 40, 80, 160, 320, 640, 1280, 3560 μm) were considered, so that each sample is associated with eight Shannon entropy values. After the systematic calculation of all the descriptive parameters, the next phase is a data mining phase, in which some machine learning techniques are implemented, in order to define prediction models that can divide patients according to the actual course of the disease. The most informative parameters are identified with a feature selection algorithm (FS): the NCA (Neighborhood Component Analysis), using the status at the last follow-up as desired output. This clinical index takes in account the two possible outcomes of the disease: patients whose status at the last follow- up was ascertained as NED, with an observation period more than 4 years, were gathered in the good course class; the rest (DOD with follow-up period † 4 years) falls into the bad course class. The goal of this phase is to eliminate both redundant features and those with poor information content, with the aim of identifying the subset of features that allows the best prediction of patient survival. NCA is an embedded method which interacts directly with the classifier, optimizing the accuracy of the learner while implementing the selection of features. Finally, to identify the best classifier, the set of descriptors provided by the NCA method are used to train di↵erent learners (SVM and KNN), varying the parameter settings that characterize the models. The data collection of this thesis work includes 41 Lung-NENs histologies from di↵erent clinical centers, in Italy and abroad. All images were obtained through the digitization of tumor samples, taken by complete surgical resection. Clinical information is associated with each histology, such as: date of diagnosis, date of the last follow-up, status of the patient at the last follow-up. The latter includes two possible labels: NED- ”not evidence of disease” and DOD- ”dead of disease”. For this dataset, the heterogeneity distribution of Ki67 + cells is assessed by comparing images of an area less than 20mm2 with much larger portions, which for some samples reach 200mm . To make the evaluation of the samples more homoge- neous, the area of the histological section is introduced as a selective parameter of the images, considering the following thresholds: 1, 1.5, 2, 2.5, 3, 3.5, 4 x108 pixels . In this way, small images for which the extraction of parameters has a reduced information content are excluded. The results show a significant improvement in performance in the case of A ° 3x108 pixels for both classifiers, reaching values of 87% and 84% of accuracy for KNN and SVM, respectively. KNN’s performance rises further under more restrictive conditions. For these reasons it should be important to provide segmented areas by pathologist of at least 62 mm2 (3x108 pixels) for the evaluation of new samples. Given the limited number of samples and the uncertainty about the actual clini- cal disease course due to the short observation period, encouraging results have been achieved. Investigating the intra-tumor heterogeneity of Ki67 seems to be a promising strategy for defining the patient’s prognosis.

Questa tesi `e incentrata sulle neoplasie neuroendocrine del polmone, generalmente definite con l’acronimo Lung-NENs, le quali rappresentano una famiglia di neopla- sie che mostrano di↵erenzazione neuroendocrina e comprendono sia tumori indolenti con aspettativa di vita a lungo termine, sia tumori aggressivi con prognosi negati- va. Questi tumori si sviluppano dalle cellule neuroendocrine dello strato basale dell’epitelio bronchiale, che prendono il nome di cellule di Kultchitzsky. In quanto tumori neuroendocrini presentano tutti l’espressione dei marcatori neuroendocrini come Cromogranina A e Sinaptofisina. Le Lung-NENs sono tumori neuroendocrini rari con un’incidenza molto bassa (approssimativamente si registrano da 0.2 a 2 casi per 100000 all’anno negli Stati Uniti e in Europa). Tuttavia la loro incidenza `e in aumento, probabilmente a causa dei miglioramenti nel rilevamento ai primi stadi della malattia e all’incremento della sopravvivenza della popolazione. I sistemi di classificazione attuali si sono rivelati inconsistenti e poco e caci nel rispecchiare la gravit`a del tumore. Infatti a volte, tumori classificati come ma- ligni si comportano in modo indolente, mentre tumori benigni hanno un decorso peggiore. Questa eterogeneit`a nella progressione tumorale determina discrepanze diagnostiche e di colt`a nello stabilire i trattamenti terapeutici opportuni. Si vo- gliono perci`o identificare classi piu` coerenti rispetto all’e↵ettivo decorso clinico e distinguere quei tumori che sono stati riuniti all’interno della stessa classe, ma che potrebbero beneficiare di approcci terapeutici diversi. Attualmente, il gold standard per la definizione della diagnosi e del percorso te- rapeutico ottimale per i tumori neureandocrini `e l’analisi istologica di campioni di tessuto prelevati tramite biopsia o resezione chirurgica, che consiste in un’ispezione visiva da parte del patologo di una piccola porzione ad alta intensit`a del campione (chimata “hotspot”) dal punto di vista morfologico. Da questa valutazione vengono definiti il grado e lo stadio del tumore neuroendocrino. Il grado `e un indice dell’ag- gressivita` del tumore e dipende dalla percentuale di necrosi e dalla proliferazione delle cellule nell’area selezionata, stimata nella pratica clinica attraverso la conta mitotica (ovvero il numero di figure mitotiche in un’area di 2 mm2). Per la defini- zione dello stadio, invece, si utilizza il sistema TNM proposto dalla American Joint Committee on Cancer, secondo il quale alla determinazione dello stadio contribui- scono: la dimensione e la localizzazione del tumore (T), la possibile di↵usione dello stesso nei linfonodi (N) e la presenza di metastasi (M). In base alla classificazione WHO del 2015, si possono identificare 4 varianti isto- logiche del tumore neuroendocrino del polmone: carcinoide tipico (TC), carcinoide atipico (AC), carcinoma neuroendocrino a cellule grandi (LCNEC), carcinoma a piccole cellule (SCLC). I criteri di classificazione comprendono il numero di mitosi per 2 mm2 di area, la presenza e l’estensione delle eventuali necrosi, le caratteristiche citologiche e istolo- giche (come la dimensione e la forma delle cellule, l’architettura complessiva, etc.), e la ricerca di marker neuroendocrini tramite immunoistochimica. Il grado, invece, viene determinato esclusivamente su base diagnostica: i TC sono considerati tumori di basso grado, gli AC di grado intermedio, SCLC e LCNEC di gravo elevato. L’unico trattamento risolutivo per questa patologia `e la resezione chirurgica com- pleta. La procedura attualmente applicata nella pratica clinica presenta alcune cri- ticita`, in quanto la valutazione della proliferazione tumorale `e soggettiva e dipende fortemente dall’interpretazione del patologo. La conta mitotica infatti non `e adatta a rappresentare la capacita` proliferativa delle cellule tumorali, poich ́e le figure mi- totiche sono di cilmente identificabili dal patologo e pertanto sottostimate. Questa misura non tiene conto delle cellule che si stanno preparando alla divisione ma che non sono ancora entrate nella fase mitotica del ciclo cellulare (cio`e quelle in inter- fase). Inoltre, la quantificazione della capacita` proliferativa del tumore `e limitata soltanto ad una porzione ristretta dell’immagine e questo comporta la perdita di riproducibilita` e una semplificazione eccessiva dell’eterogeneita` tumorale, la quale `e una potenziale fonte di informazione a livello prognostico. Per superare le presenti limitazioni, la stima della proliferazione cellulare do- vrebbe essere eseguita utilizzando il Ki67 labeling index (Ki67-LI), definito come la percentuale di cellule positive al marcatore Ki67 in una regione di hotspot. L’anti- gene Ki67 `e una proteina nucleare non istonica presente durante tutte le fasi attive del ciclo cellulare (G1, S, G2, M), ma assente nelle cellule non proliferanti (G0). Alcuni studi dimostrano che l’espressione del Ki67 ha una forte relazione con la me- tastasi tumorale, la stadiazione e la di↵erenzazione cellulare del tumore e per queste ragioni il Ki67 `e considerato un marker predittivo e prognostico per la diagnosi e il trattamento di tumori. La proteina puo` essere rilevata nelle istologie attraverso una specifica colorazione immuistochimica, a seguito della quale i nuclei delle cellule po- sitive alla colorazione 3,3’-diaminobenzidina (DAB) sono marroni, mentre le cellule negative al marcatore, contro- colorate con ematossilina, appaiono blu. Senza dubbi il Ki67-LI `e un indicatore di proliferazione piu` a dabile rispetto alla conta mitotica tradizionale, poich ́e ricopre uno spettro piu` ampio del proces- so di divisione cellulare contrariamente al fuso mitotico osservato istologicamente. Nonostante ci`o, il suo impiego nella pratica clinica `e ancora molto controverso a causa della sua variabilit`a determinata dall’eterogeneita` intra-tumorale. La man- canza di una procedura standardizzata e l’approccio conservativo in campo medico impediscono la di↵usione e l’applicazione di questo indice nella gestione di alcune patologie, tra cui le neoplasie neuroendocrine polmonari, per le quali la tradizionale conta mitotica rimane il principale criterio di diagnosi. Tuttavia, anche la valutazione del Ki67-LI `e limitata ad una regione di hotspot, scelta soggettivamente dal patologo in base alla sua esperienza. Questo porta a risultati non riproducibili, imprecisi e poco a dabili. Si rivela perci`o necessaria l’in- troduzione di metodi computazionali in grado di fornire una descrizione quantitativa del Ki67 nell’intera immagine istologica, diminuendo la variabilit`a inter-osservatore dovuta all’interpretazione dei singoli patologi ed ottenendo risultati piu` a dabili, con tempi e sforzi minori. Sulla base di queste evidenze, l’obiettivo di questo lavoro di tesi `e quello di impie- gare strumenti matematici per analizzare la complessita` della distribuzione spaziale delle cellule Ki67 positive, estesa all’intera immagine istologica. Si vuole quindi sviluppare un metodo oggettivo e a dabile che, sfruttando le informazioni dell’ete- rogeneita` intra-tumorale del Ki67, fornisca indicazioni utili riguardo l’aggressivit`a del tumore e la prognosi del paziente. Questo consentirebbe di distinguere i pa- zienti in nuove categorie cliniche per la medicina di precisione e di sviluppare nuovi trattamenti specifici per la risoluzione di questa patologia. L’analisi delle immagini viene eseguita su sezioni istologiche colorate tramite immunoistochimica Ki67, ottenute mediante resezioni chirurgiche. Localizzate le cellule Ki67+, l’eterogeneita` intra-tumorale viene valutata mediante il calcolo di nu- merosi parametri, che potrebbero essere tradotti in istopatologia come descrittori della complessit`a. Essi appartengono a quattro categorie principali: statistica spa- ziale, teoria dei grafi, frattalita` ed entropia, in base alla diversa interpretazione del pattern. Di seguito, si riporta una breve descrizione di questi indici. Statistica spaziale Le funzioni di statistica spaziale consentono di distinguere se la divisione cellulare avviene in maniera randomica o se c’`e una tendenza al raggruppamento. L’ipotesi di base prevede di identificare i centri delle cellule come eventi indipendenti, la cui occorrenza nella finestra di osservazione `e una variabile aleatoria. Teoria dei grafi In questo caso, i centri delle cellule Ki67 positive sono interpretati come nodi di un grafo e le connessioni vengono stabilite per le coppie di nodi la cui distanza euclidea `e inferiore ad una certa soglia d, con d=25,50,75 μm. Quindi, per ognuno dei tre grafi che dipendono da d, `e stato estratto un ragguardevole numero di features, sia locali che globali. Con l’aggettivo globale ci si riferisce agli indici scalari relativi alla totalita` del grafo; viceversa le features locali sono dei vettori di N elementi, ciascuno dei quali `e associato ad uno degli N nodi del grafo. Al fine di riassumere in un singolo valore la distribuzione di questi ultimi, si applicano 16 indici della statistica descrittiva, come la curtosi e l’asimmetria. Gli indici ricavati dai grafi sono in grado di rappresentare l’organizzazione strut- turale del tessuto e consentono di distinguere tessuti sani da tessuti patologici. L’in- gente numero di parametri considerati racchiudono features generali relative alla connettivita`, misure basate sulla distanza e parametri spettrali. Frattalit`a La geometria frattale si applica in campo istopatologico, con lo scopo di rappresen- tare la distribuzione e la morfologia delle cellule. Il parametro che emerge da questa analisi `e la dimensione frattale, stimata tramite il metodo del “box-counting” con- siderando dimensioni di box pari a 20, 40, 80, 160, 320, 640, 1280, 3560 μm. La dimensione frattale `e stata calcolata anche secondo il metodo di Higuchi, sulla base delle proiezioni 1D della matrice contenente i centri cellulari sugli assi x e y. Entropia L’entropia di Shannon fornisce la quantificazione del contenuto informativo associato a eventi stocastici. L’entropia permette di quantificare il grado di complessita` della distribuzione delle cellule nei campioni istologici e quindi di distinguere il tumore dal tessuto sano. Per questa applicazione, l’evento stocastico considerato `e “numero di box, interamente inclusi nell’area di interesse, contenenti esattamente N punti”. Sono state considerate diverse griglie con di↵erenti dimensioni di box (20, 40, 80, 160, 320, 640, 1280, 3560 μm), per cui ad ogni campione sono associati otto valori di entropia di Shannon. Dopo il calcolo sistematico di tutti i parametri descrittivi, `e seguita una fase di data mining, in cui sono state implementate alcune tecniche di machine learning, al fine di definire modelli di predizione che suddividono i pazienti a seconda del decorso e↵ettivo della malattia. I parametri piu` informativi sono stati individuati con un algoritmo di feature selection (FS): l’NCA (Neighborhood Component Analysis), utilizzando come out- put desiderato lo stato all’ultimo follow-up. Questo indice clinico considera i due possibili esiti della malattia: i pazienti il cui stato all’ultimo follow-up `e stato ac- certato come NED, con un periodo di osservazione superiore ai 4 anni, sono stati riuniti nella classe di buon decorso; gli altri (DOD con periodo di follow-up † 4 anni) rientrano nella classe di cattivo decorso. L’obiettivo di questa fase `e quello di eliminare sia le features ridondanti, che quelle con scarso contenuto informativo, con lo scopo di identificare il sottoinsieme di features che consenta la miglior predizione della sopravvivenza del paziente. NCA `e un metodo embedded che interagisce direttamente con il classificatore, ottimizzando l’accuratezza del learner mentre implementa la selezione delle features. Infine, per identificare il miglior classificatore, l’insieme dei descrittori forniti dal metodo NCA `e stato utilizzato per allenare diversi learners (SVM e KNN), variando le impostazioni dei parametri che caratterizzano i modelli. La collezione di dati di questo lavoro di tesi comprende 41 istologie di Lung-NENs provenienti da diversi centri clinici, in Italia e all’estero. Tutte le immagini sono sta- te ottenute attraverso la digitalizzazione dei campioni tumorali, prelevati mediante resezione chirurgica completa. A ciascuna istologia sono associate informazioni clini- che, come: data di diagnosi, data dell’ultimo follow-up, stato del paziente all’ultimo follow-up. Quest’ultimo comprende due possibili esiti: NED- “nessuna evidenza di tumore” e DOD-“morto di tumore”. Per questo dataset l’eterogeneita` della distribuzione delle cellule Ki67+ viene valutata confrontando immagini di area inferiore ai 20 mm2 con porzioni molto piu` estese, che per qualche campione raggiungono i 200 mm . Per rendere piu` omogenea la valutazione dei campioni, si introduce come parametro selettivo delle immagini l’area della sezione istologica, considerando le seguenti soglie: 1, 1.5, 2, 2.5, 3, 3.5, 4 x108 pixel. In questo modo, vengono escluse le immagini piccole per le quali l’estrazione dei parametri ha un ridotto contenuto informativo. Dai risultati si evince un sensibile migliormento della prestazione nel caso A ° 3x108 pixel per entrambi i classificatori, raggiungendo valori di 87% e 84% di accuratezza per KNN e SVM, rispettivamente. La performance di KNN sale ulteriormente in condizioni piu` restrittive. Pertanto si ritiene importante disporre di aree segmentate dal patolgo di almeno 62 mm2 (3x108 pixel) per la valutazione di nuovi campioni. Considerando il numero limitato di campioni e l’incertezza riguardo l’e↵ettivo de- corso clinico a causa del breve periodo di osservazione, sono stati raggiunti risulta- ti piuttosto incoraggianti. Indagare l’eterogeneita` intra-tumorale del Ki67 sembra essere una strategia promettente per definire la prognosi del paziente.

Analisi del potenziale prognostico della distribuzione spaziale delle cellule KI67-positive nei tumori neuroendocrini polmonari

CARNIEL, LUCIA
2019/2020

Abstract

This present thesis concerns the study of Lung neuroendocrine neoplasms, generally defined with the acronym Lung-NENs, which represent a family of neoplasms sho- wing neuroendocrine di↵erentiation and which include both indolent tumors with long-term life expectancy, and aggressive tumors with negative prognosis. These tumors develop from the neuroendocrine cells of the basal layer of the bron- chial epithelium, which are named Kultchitzsky cells. As neuroendocrine tumors, all of them present the expression of neuroendocrine markers such as Chromogranin A and Synaptophysine. Lung-NENs are rare neuroendocrine tumors with very low incidence (approxima- tely 0.2 to 2 cases per 100000 each year in the United States and Europe). However, probably due to improvements in the detection at the early stages of the disease and the increase in population survival, their incidence is increasing. Current classification systems have proved inconsistent and ine↵ective in reflecting tumor severity. Indeed, it happens that sometimes tumors classified as malignant behave indolently, while benign tumors have a dismal disease course. This hete- rogeneity in tumor progression leads to diagnostic discrepancies and di culties in establishing the appropriate therapeutic treatments. The final goal of this thesis is to identify classes that are more consistent with the actual clinical course and to distinguish those tumors which have been brought together within the same class, but that could benefit from di↵erent therapeutic approaches. Currently, the gold standard for the diagnosis definition of neuroendocrine tumor is the histological analysis of tissue samples taken by biopsy or surgical resection, which consists of a visual inspection by the pathologist of a small high-intensity portion of the morphological sample (called ”hotspot”). From this evaluation the degree and the stage are defined. The degree is a measure of the tumor aggressiveness and it depends on both the percentage of necrosis and on the assessed proliferation rate in the selected area, estimated in clinical practice through the mitotic count (i.e. the number of mitotic figures in an area of 2 mm2). For the definition of the stage, instead, we use the TNM system proposed by the American Joint Committee on Cancer, which is the most commonly used. According to this system, the stage contribute is determined by: the tumor size and location (T), the possible spread of it to the near located lymphnodes (N ) and the presence of metastases (M). According to the 2015 WHO classification, four histological variants of Lung- NENs can be identified: typical carcinoid (CT), atypical carcinoid (AC), large cell neuroendocrine carcinoma (LCNEC), small cell carcinoma (SCLC). The classification criteria include the number of mitoses per 2 mm2 of area, the presence/absence of necrosis, the cytological and histological characteristics (such as cell size and shape, overall architecture, etc.), and the detection for neuroendocrine markers through immunohistochemistry. On the other hand, the degree is determi- ned exclusively on the basis of diagnosis: TCs are considered as low grade tumors, ACs as intermediate grade tumors, SCLCs and LCNECs as high grade tumors. Complete surgical resection is the only curative treatment. The procedure currently applied in clinical practice presents some criticalities, since the assessment of tumor proliferation is subjective and it depends on the pathologist’s interpretation. Indeed, the mitotic count is not suitable to represent the tumor proliferative capability, since the mitotic figures are di cult to identify by the pathologist and therefore underesti- mated. This measure does not take into account the cells that are preparing them- selves for the division (in interphase), but have not entered yet the mitotic phase of the cell cycle. Furthermore, the quantification of the tumor proliferative capability involves only a limited portion area and this leads to a huge loss of reproducibility and to a dramatic simplification of tumor heterogeneity, which is a potential source of information at the prognostic level. In order to overcome these limitations, the estimation of the proliferation rate should be performed using the Ki67 labeling in- dex (Ki67-LI), which is defined as the percentage of Ki67 positive cells in a hotspot region. The Ki67 antigen is a non-histone nuclear protein present during all active phases of the cell cycle (G1, S, G2, M), but it is absent in non-proliferating cells (G0). Some studies show that Ki67 expression has a strong relationship with tumor metastasis, staging and cellular di↵erentiation and for these reasons Ki67 is consi- dered a predictive and prognostic marker for the diagnosis and treatment of tumors. The protein can be detected in histologies through a specific immunohistochemical staining, as a result of which the nuclei of 3,3’-diaminobenzidine (DAB) staining cells are brown, while negative cell nuclei, counter-stained with hematoxylin, appear blue. With no doubts, Ki67-LI is far more reliable than traditional mitotic count, since it covers a wider spectrum of the mitotic process in contrast to the mitotic spindle observed histologically. Despite this, its use in clinical practice is still highly controversial due to its variability determined by intra-tumor heterogeneity. In fact, the lack of a standardized procedure, together with the conservative approach in the medical field, prevents the spread and application of this index in the management of some pathologies, among which the pulmonary neuroendocrine tumors, for which the traditional mitotic count remains the main criterion of diagnosis. However, the evaluation of Ki67-LI is also limited to a region of hotspot, su- bjectively chosen by the pathologist based on his experience. This leads to non- reproducible, inaccurate and unreliable results. In this framework, the introduction of computational methods capable of providing a quantitative description of Ki67 throughout the histological image is therefore necessary, because that should decrea- se the inter-observer variability due to the interpretation of individual pathologists and it should lead to more reliable results, with less time and e↵ort. Based on this evidence, the aim of this thesis is to use mathematical tools to analyze the complexity of the spatial distribution of positive Ki67 cells, extended to the entire histological image. We therefore want to develop an objective and reliable method that provides useful information about the aggressiveness of the tumor and the patient’s prognosis, by exploiting the information of the intra-tumor heterogeneity of Ki67. This would make it possible to distinguish patients in new clinical categories for precision medicine and to develop new specific treatments for the resolution of this pathology. The analysis of the images is performed on histolo- gical sections stained by Ki67 immunohistochemistry, from surgical resections. Once the Ki67 + cells are localized, intra-tumor heterogeneity is assessed by calculating numerous parameters, which could be translated into histopathology as descriptors of complexity. They belong to four main categories: spatial statistics, graph theory, fractality and entropy, based on the di↵erent interpretation of the pattern. Below is reported a brief description of these indices. Spatial statistics Spatial statistics functions allow to distinguish if cell division occurs randomly or if there is a clustering tendency. The underlying hypothesis is that the recorded cell centers are independent events, whose occurrence in the window of observation is a random variable. Graph Theory In this case, positive Ki67 cells centers have been interpreted as graph nodes and the connections are established for the pairs of nodes whose Euclidean distance was smaller than a threshold d, with d equal to 25,50,75 μm. For each of the three d- dependet graphs a consistent number of features have been extracted, both local and global. The adjective global refers to the scalar indices which are related to the whole graph; conversely, the local features are vectors of N elements, each associated to a graph node. In order to summarize the distribution in a single value, 16 indices from descriptive statistics have been adopted, such as kurtosis and standard deviation. The indices obtained from the graphs represent the structural organization of the tissue and allow to distinguish between healthy tissues and pathological tissues. The huge number of parameters encompass general connectivity features, distance-based measurements and spectral parameters. Fractality Fractal geometry is applied in the histopathological field, with the aim of representing the distribution and morphology of cells. The parameter emerging from this analysis is the fractal dimension, which has been estimated using the ”box-counting” method and considering the following box sizes: 20, 40, 80, 160, 320, 640, 1280, 3560 μm. The fractal dimension was also calculated according to the Higuchi method, on the base of the 1D data point series derived from image projection on the x and y axes. Entropy Shannon entropy provides the quantification of the information content associated with stochastic events. Entropy allows to quantify the degree of complexity of cell distribution in histological samples and therefore it allows to distinguish between the tumor and the healthy tissue. For this application, the stochastic event considered is ”number of boxes, entirely included in the area of interest, containing exactly N points”. Di↵erent grids with di↵erent box sizes (20, 40, 80, 160, 320, 640, 1280, 3560 μm) were considered, so that each sample is associated with eight Shannon entropy values. After the systematic calculation of all the descriptive parameters, the next phase is a data mining phase, in which some machine learning techniques are implemented, in order to define prediction models that can divide patients according to the actual course of the disease. The most informative parameters are identified with a feature selection algorithm (FS): the NCA (Neighborhood Component Analysis), using the status at the last follow-up as desired output. This clinical index takes in account the two possible outcomes of the disease: patients whose status at the last follow- up was ascertained as NED, with an observation period more than 4 years, were gathered in the good course class; the rest (DOD with follow-up period † 4 years) falls into the bad course class. The goal of this phase is to eliminate both redundant features and those with poor information content, with the aim of identifying the subset of features that allows the best prediction of patient survival. NCA is an embedded method which interacts directly with the classifier, optimizing the accuracy of the learner while implementing the selection of features. Finally, to identify the best classifier, the set of descriptors provided by the NCA method are used to train di↵erent learners (SVM and KNN), varying the parameter settings that characterize the models. The data collection of this thesis work includes 41 Lung-NENs histologies from di↵erent clinical centers, in Italy and abroad. All images were obtained through the digitization of tumor samples, taken by complete surgical resection. Clinical information is associated with each histology, such as: date of diagnosis, date of the last follow-up, status of the patient at the last follow-up. The latter includes two possible labels: NED- ”not evidence of disease” and DOD- ”dead of disease”. For this dataset, the heterogeneity distribution of Ki67 + cells is assessed by comparing images of an area less than 20mm2 with much larger portions, which for some samples reach 200mm . To make the evaluation of the samples more homoge- neous, the area of the histological section is introduced as a selective parameter of the images, considering the following thresholds: 1, 1.5, 2, 2.5, 3, 3.5, 4 x108 pixels . In this way, small images for which the extraction of parameters has a reduced information content are excluded. The results show a significant improvement in performance in the case of A ° 3x108 pixels for both classifiers, reaching values of 87% and 84% of accuracy for KNN and SVM, respectively. KNN’s performance rises further under more restrictive conditions. For these reasons it should be important to provide segmented areas by pathologist of at least 62 mm2 (3x108 pixels) for the evaluation of new samples. Given the limited number of samples and the uncertainty about the actual clini- cal disease course due to the short observation period, encouraging results have been achieved. Investigating the intra-tumor heterogeneity of Ki67 seems to be a promising strategy for defining the patient’s prognosis.
BULLONI, MATTEO
ING - Scuola di Ingegneria Industriale e dell'Informazione
6-giu-2020
2019/2020
Questa tesi `e incentrata sulle neoplasie neuroendocrine del polmone, generalmente definite con l’acronimo Lung-NENs, le quali rappresentano una famiglia di neopla- sie che mostrano di↵erenzazione neuroendocrina e comprendono sia tumori indolenti con aspettativa di vita a lungo termine, sia tumori aggressivi con prognosi negati- va. Questi tumori si sviluppano dalle cellule neuroendocrine dello strato basale dell’epitelio bronchiale, che prendono il nome di cellule di Kultchitzsky. In quanto tumori neuroendocrini presentano tutti l’espressione dei marcatori neuroendocrini come Cromogranina A e Sinaptofisina. Le Lung-NENs sono tumori neuroendocrini rari con un’incidenza molto bassa (approssimativamente si registrano da 0.2 a 2 casi per 100000 all’anno negli Stati Uniti e in Europa). Tuttavia la loro incidenza `e in aumento, probabilmente a causa dei miglioramenti nel rilevamento ai primi stadi della malattia e all’incremento della sopravvivenza della popolazione. I sistemi di classificazione attuali si sono rivelati inconsistenti e poco e caci nel rispecchiare la gravit`a del tumore. Infatti a volte, tumori classificati come ma- ligni si comportano in modo indolente, mentre tumori benigni hanno un decorso peggiore. Questa eterogeneit`a nella progressione tumorale determina discrepanze diagnostiche e di colt`a nello stabilire i trattamenti terapeutici opportuni. Si vo- gliono perci`o identificare classi piu` coerenti rispetto all’e↵ettivo decorso clinico e distinguere quei tumori che sono stati riuniti all’interno della stessa classe, ma che potrebbero beneficiare di approcci terapeutici diversi. Attualmente, il gold standard per la definizione della diagnosi e del percorso te- rapeutico ottimale per i tumori neureandocrini `e l’analisi istologica di campioni di tessuto prelevati tramite biopsia o resezione chirurgica, che consiste in un’ispezione visiva da parte del patologo di una piccola porzione ad alta intensit`a del campione (chimata “hotspot”) dal punto di vista morfologico. Da questa valutazione vengono definiti il grado e lo stadio del tumore neuroendocrino. Il grado `e un indice dell’ag- gressivita` del tumore e dipende dalla percentuale di necrosi e dalla proliferazione delle cellule nell’area selezionata, stimata nella pratica clinica attraverso la conta mitotica (ovvero il numero di figure mitotiche in un’area di 2 mm2). Per la defini- zione dello stadio, invece, si utilizza il sistema TNM proposto dalla American Joint Committee on Cancer, secondo il quale alla determinazione dello stadio contribui- scono: la dimensione e la localizzazione del tumore (T), la possibile di↵usione dello stesso nei linfonodi (N) e la presenza di metastasi (M). In base alla classificazione WHO del 2015, si possono identificare 4 varianti isto- logiche del tumore neuroendocrino del polmone: carcinoide tipico (TC), carcinoide atipico (AC), carcinoma neuroendocrino a cellule grandi (LCNEC), carcinoma a piccole cellule (SCLC). I criteri di classificazione comprendono il numero di mitosi per 2 mm2 di area, la presenza e l’estensione delle eventuali necrosi, le caratteristiche citologiche e istolo- giche (come la dimensione e la forma delle cellule, l’architettura complessiva, etc.), e la ricerca di marker neuroendocrini tramite immunoistochimica. Il grado, invece, viene determinato esclusivamente su base diagnostica: i TC sono considerati tumori di basso grado, gli AC di grado intermedio, SCLC e LCNEC di gravo elevato. L’unico trattamento risolutivo per questa patologia `e la resezione chirurgica com- pleta. La procedura attualmente applicata nella pratica clinica presenta alcune cri- ticita`, in quanto la valutazione della proliferazione tumorale `e soggettiva e dipende fortemente dall’interpretazione del patologo. La conta mitotica infatti non `e adatta a rappresentare la capacita` proliferativa delle cellule tumorali, poich ́e le figure mi- totiche sono di cilmente identificabili dal patologo e pertanto sottostimate. Questa misura non tiene conto delle cellule che si stanno preparando alla divisione ma che non sono ancora entrate nella fase mitotica del ciclo cellulare (cio`e quelle in inter- fase). Inoltre, la quantificazione della capacita` proliferativa del tumore `e limitata soltanto ad una porzione ristretta dell’immagine e questo comporta la perdita di riproducibilita` e una semplificazione eccessiva dell’eterogeneita` tumorale, la quale `e una potenziale fonte di informazione a livello prognostico. Per superare le presenti limitazioni, la stima della proliferazione cellulare do- vrebbe essere eseguita utilizzando il Ki67 labeling index (Ki67-LI), definito come la percentuale di cellule positive al marcatore Ki67 in una regione di hotspot. L’anti- gene Ki67 `e una proteina nucleare non istonica presente durante tutte le fasi attive del ciclo cellulare (G1, S, G2, M), ma assente nelle cellule non proliferanti (G0). Alcuni studi dimostrano che l’espressione del Ki67 ha una forte relazione con la me- tastasi tumorale, la stadiazione e la di↵erenzazione cellulare del tumore e per queste ragioni il Ki67 `e considerato un marker predittivo e prognostico per la diagnosi e il trattamento di tumori. La proteina puo` essere rilevata nelle istologie attraverso una specifica colorazione immuistochimica, a seguito della quale i nuclei delle cellule po- sitive alla colorazione 3,3’-diaminobenzidina (DAB) sono marroni, mentre le cellule negative al marcatore, contro- colorate con ematossilina, appaiono blu. Senza dubbi il Ki67-LI `e un indicatore di proliferazione piu` a dabile rispetto alla conta mitotica tradizionale, poich ́e ricopre uno spettro piu` ampio del proces- so di divisione cellulare contrariamente al fuso mitotico osservato istologicamente. Nonostante ci`o, il suo impiego nella pratica clinica `e ancora molto controverso a causa della sua variabilit`a determinata dall’eterogeneita` intra-tumorale. La man- canza di una procedura standardizzata e l’approccio conservativo in campo medico impediscono la di↵usione e l’applicazione di questo indice nella gestione di alcune patologie, tra cui le neoplasie neuroendocrine polmonari, per le quali la tradizionale conta mitotica rimane il principale criterio di diagnosi. Tuttavia, anche la valutazione del Ki67-LI `e limitata ad una regione di hotspot, scelta soggettivamente dal patologo in base alla sua esperienza. Questo porta a risultati non riproducibili, imprecisi e poco a dabili. Si rivela perci`o necessaria l’in- troduzione di metodi computazionali in grado di fornire una descrizione quantitativa del Ki67 nell’intera immagine istologica, diminuendo la variabilit`a inter-osservatore dovuta all’interpretazione dei singoli patologi ed ottenendo risultati piu` a dabili, con tempi e sforzi minori. Sulla base di queste evidenze, l’obiettivo di questo lavoro di tesi `e quello di impie- gare strumenti matematici per analizzare la complessita` della distribuzione spaziale delle cellule Ki67 positive, estesa all’intera immagine istologica. Si vuole quindi sviluppare un metodo oggettivo e a dabile che, sfruttando le informazioni dell’ete- rogeneita` intra-tumorale del Ki67, fornisca indicazioni utili riguardo l’aggressivit`a del tumore e la prognosi del paziente. Questo consentirebbe di distinguere i pa- zienti in nuove categorie cliniche per la medicina di precisione e di sviluppare nuovi trattamenti specifici per la risoluzione di questa patologia. L’analisi delle immagini viene eseguita su sezioni istologiche colorate tramite immunoistochimica Ki67, ottenute mediante resezioni chirurgiche. Localizzate le cellule Ki67+, l’eterogeneita` intra-tumorale viene valutata mediante il calcolo di nu- merosi parametri, che potrebbero essere tradotti in istopatologia come descrittori della complessit`a. Essi appartengono a quattro categorie principali: statistica spa- ziale, teoria dei grafi, frattalita` ed entropia, in base alla diversa interpretazione del pattern. Di seguito, si riporta una breve descrizione di questi indici. Statistica spaziale Le funzioni di statistica spaziale consentono di distinguere se la divisione cellulare avviene in maniera randomica o se c’`e una tendenza al raggruppamento. L’ipotesi di base prevede di identificare i centri delle cellule come eventi indipendenti, la cui occorrenza nella finestra di osservazione `e una variabile aleatoria. Teoria dei grafi In questo caso, i centri delle cellule Ki67 positive sono interpretati come nodi di un grafo e le connessioni vengono stabilite per le coppie di nodi la cui distanza euclidea `e inferiore ad una certa soglia d, con d=25,50,75 μm. Quindi, per ognuno dei tre grafi che dipendono da d, `e stato estratto un ragguardevole numero di features, sia locali che globali. Con l’aggettivo globale ci si riferisce agli indici scalari relativi alla totalita` del grafo; viceversa le features locali sono dei vettori di N elementi, ciascuno dei quali `e associato ad uno degli N nodi del grafo. Al fine di riassumere in un singolo valore la distribuzione di questi ultimi, si applicano 16 indici della statistica descrittiva, come la curtosi e l’asimmetria. Gli indici ricavati dai grafi sono in grado di rappresentare l’organizzazione strut- turale del tessuto e consentono di distinguere tessuti sani da tessuti patologici. L’in- gente numero di parametri considerati racchiudono features generali relative alla connettivita`, misure basate sulla distanza e parametri spettrali. Frattalit`a La geometria frattale si applica in campo istopatologico, con lo scopo di rappresen- tare la distribuzione e la morfologia delle cellule. Il parametro che emerge da questa analisi `e la dimensione frattale, stimata tramite il metodo del “box-counting” con- siderando dimensioni di box pari a 20, 40, 80, 160, 320, 640, 1280, 3560 μm. La dimensione frattale `e stata calcolata anche secondo il metodo di Higuchi, sulla base delle proiezioni 1D della matrice contenente i centri cellulari sugli assi x e y. Entropia L’entropia di Shannon fornisce la quantificazione del contenuto informativo associato a eventi stocastici. L’entropia permette di quantificare il grado di complessita` della distribuzione delle cellule nei campioni istologici e quindi di distinguere il tumore dal tessuto sano. Per questa applicazione, l’evento stocastico considerato `e “numero di box, interamente inclusi nell’area di interesse, contenenti esattamente N punti”. Sono state considerate diverse griglie con di↵erenti dimensioni di box (20, 40, 80, 160, 320, 640, 1280, 3560 μm), per cui ad ogni campione sono associati otto valori di entropia di Shannon. Dopo il calcolo sistematico di tutti i parametri descrittivi, `e seguita una fase di data mining, in cui sono state implementate alcune tecniche di machine learning, al fine di definire modelli di predizione che suddividono i pazienti a seconda del decorso e↵ettivo della malattia. I parametri piu` informativi sono stati individuati con un algoritmo di feature selection (FS): l’NCA (Neighborhood Component Analysis), utilizzando come out- put desiderato lo stato all’ultimo follow-up. Questo indice clinico considera i due possibili esiti della malattia: i pazienti il cui stato all’ultimo follow-up `e stato ac- certato come NED, con un periodo di osservazione superiore ai 4 anni, sono stati riuniti nella classe di buon decorso; gli altri (DOD con periodo di follow-up † 4 anni) rientrano nella classe di cattivo decorso. L’obiettivo di questa fase `e quello di eliminare sia le features ridondanti, che quelle con scarso contenuto informativo, con lo scopo di identificare il sottoinsieme di features che consenta la miglior predizione della sopravvivenza del paziente. NCA `e un metodo embedded che interagisce direttamente con il classificatore, ottimizzando l’accuratezza del learner mentre implementa la selezione delle features. Infine, per identificare il miglior classificatore, l’insieme dei descrittori forniti dal metodo NCA `e stato utilizzato per allenare diversi learners (SVM e KNN), variando le impostazioni dei parametri che caratterizzano i modelli. La collezione di dati di questo lavoro di tesi comprende 41 istologie di Lung-NENs provenienti da diversi centri clinici, in Italia e all’estero. Tutte le immagini sono sta- te ottenute attraverso la digitalizzazione dei campioni tumorali, prelevati mediante resezione chirurgica completa. A ciascuna istologia sono associate informazioni clini- che, come: data di diagnosi, data dell’ultimo follow-up, stato del paziente all’ultimo follow-up. Quest’ultimo comprende due possibili esiti: NED- “nessuna evidenza di tumore” e DOD-“morto di tumore”. Per questo dataset l’eterogeneita` della distribuzione delle cellule Ki67+ viene valutata confrontando immagini di area inferiore ai 20 mm2 con porzioni molto piu` estese, che per qualche campione raggiungono i 200 mm . Per rendere piu` omogenea la valutazione dei campioni, si introduce come parametro selettivo delle immagini l’area della sezione istologica, considerando le seguenti soglie: 1, 1.5, 2, 2.5, 3, 3.5, 4 x108 pixel. In questo modo, vengono escluse le immagini piccole per le quali l’estrazione dei parametri ha un ridotto contenuto informativo. Dai risultati si evince un sensibile migliormento della prestazione nel caso A ° 3x108 pixel per entrambi i classificatori, raggiungendo valori di 87% e 84% di accuratezza per KNN e SVM, rispettivamente. La performance di KNN sale ulteriormente in condizioni piu` restrittive. Pertanto si ritiene importante disporre di aree segmentate dal patolgo di almeno 62 mm2 (3x108 pixel) per la valutazione di nuovi campioni. Considerando il numero limitato di campioni e l’incertezza riguardo l’e↵ettivo de- corso clinico a causa del breve periodo di osservazione, sono stati raggiunti risulta- ti piuttosto incoraggianti. Indagare l’eterogeneita` intra-tumorale del Ki67 sembra essere una strategia promettente per definire la prognosi del paziente.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
2020_06_Carniel.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Testo della tesi
Dimensione 7.19 MB
Formato Adobe PDF
7.19 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/154443