Drug repositioning, also known as drug repurposing, refers to the use of already available drugs for treating conditions different from the original treatment purposes. In recent years, a new need has born to study old drugs that can be potentially used for new indications or that can decrease the toxic effect of other drugs. The main reasons that have led to drug repositioning are the long-term and expensive process needed for the development of a new drug and also the increased knowledge on the molecular mechanisms that govern cell biology. Therefore, the repurposing of old drugs for the treatment of diseases has become attractive: it involves the use of already approved and tested compounds with potentially lower costs and a temporal gain that reduces the 10 to 17 years process to 3 to 12 years. From a pharmacological point of view, drug repositioning is based on two main aspects: the first one is the polypharmacology of small molecules, that refers to drugs active on more than one target, while the second relies on the connections among metabolic pathways, so that the modulation of one target can affect indirectly the overall activity of other targets. It is exactly in this context that bioinformatics approaches for drug repositioning have been developed. A boost to the implementation of drug repositioning tools came from the American National Institute of Health (NIH) with the launch of the program “Discovery of New Therapeutic Uses for Existing Molecules” in May 2012, which relied on genomic, transcriptomic and proteomic data collected in public databases, such as KEGG, Uniprot, GEO (Gene Expression Omnibus), and DrugBank. One popular approach is the so-called signature-based method, which includes large-scale perturbation databases such as the Connectivity Map (CMap) or the Library of Integrated Network-based Cellular Signatures (LINCS). These resources store transcriptomic profiles of dozens of cultivated cell lines treated with thousands of chemical compounds from which drug-perturbation signatures have been derived to determine connections, similarities or dissimilarities among diseases, drugs, genes and pathways. In this work, the drug under study is called trabectedin. Trabectedin was discovered in 1969 and initially isolated from the marine ascidian Ecteinascidia turbinate. It is an anti-cancer DNA-binding agent with a complex mechanism of action which involves different biological aspects such as the DNA repair mechanisms and the tumor microenvironment, and it is also known to act as transcriptional regulator. In pharmacological terms, trabectedin is effective at low doses and to date it has been approved for the treatment of soft tissue sarcomas (liposarcoma and leiomyosarcoma) and ovarian cancer. However, liver toxicity is a recognized side effect. In order to overcome this issue, an analogue called lurbinectedin has been developed. Lurbinectedin appears to act similarly to trabectedin with regards to anti-proliferative activity, damage to DNA and cell cycle perturbations, despite lowering the side effects. Lurbinectedin is currently in phase II of experimentation for patients suffering from advanced acute leukemia and from endometrial, lung and breast malignancies. To overcome side effects or acquired drug resistance, it is possible to resort to pharmacological synergism, that is the process resulting from the simultaneous and combined action of two or more drugs. Since trabectedin has been used for years, different synergisms have been already demonstrated, such as the combination with irinotecan, an anticancer DNA topoisomerase I inhibitor, highly effective in a human rhabdomyosarcoma xenograft, or with SN-38, the major metabolite of irinotecan, effective against ovarian clear cell carcinoma (CCC) cells and in the Ewing’s Sarcoma treatment, or lastly in combination with pioglitazone to overcome trabectedin resistance in myxoid liposarcoma (MLS). On the other hand, in vivo preclinical models have shown that lurbinectedin is effective in treating epithelial ovarian tumors in combination with cisplatin, appearing to overcome the resistance of cancer cells to this last. Some studies have also shown the ability of lurbinectedin to act in synergy with gemcitabine inducing an antitumor effect on pancreatic, ovarian and non-small cell lung cancer (NSCLC). The present work has been developed in this framework within a collaboration between Politecnico di Milano and Istituto di Ricerche Farmacologiche Mario Negri, where trabectedin has been studied for years. The aim of the project is to investigate new possible pharmacological synergies for trabectedin, or its analogue lurbinectedin, through a drug repositioning approach. One of the goals of transcriptional profiling is to study the mechanism of action of the drugs in pathological conditions. Trabectedin belongs to the class of drug that act at the transcriptional level, activating specific gene networks. Therefore, we started from gene expression profiles retrieved from public sources like GEO and ArrayExpress, or unpublished data belonging to the Mario Negri Institute. In particular, we took into account different biological models, such as cell lines, patient derived xenograft (PDX) and human monocytes, treated either with trabectedin or lurbinectedin at different time points. In details, we used data from cell line models of myelomonocytic leukemia (MV4-11), desmoplastic small round cell tumor (JNDSCRT1), diffuse large B cell lymphoma divided in germinal center B cell (OCI_Ly7) and activated B cell-like (U2932) subtypes, small cell lung cancer (SHP77), then two patient-derived xenograft models of myxoid liposarcoma (MLPS_PDX), and finally human monocytes. All datasets were obtained through microarray technology, a high throughput approach that allows the simultaneous identification of thousands of expressed genes. In order to make data comparable and coherent, these datasets underwent the same workflow of analysis through which we performed data pre-processing and quality control. Differentially expressed genes (DEGs), that represent those genes for which a change in the expression level was observed in the comparison treated versus control samples, were computed through linear methods (Limma, Linear Models for Microarray). However, genes cannot be considered as independent statistical test, since they are connected by molecular relationship. Therefore, in this work, we performed a correction to the statistical significance (p-value) through multiple testing correction like the False Discovery Rate (FDR) method from Benjamini–Hochberg (BH), considering significant those genes with an adjusted p-value less than 0.05. Finally, since genes are represented by company-made probes identifiers, we created ad-hoc annotation packages, in order to link each probe to universally known identifiers, such as Gene Symbols and Entrez IDs. The number of modulated genes can vary from dozens to thousands according to the case, however, those genes that show the highest regulation consist altogether in a specific feature of that condition and can be termed as signature. For this reason, for each dataset we sorted DEGs in descending order based on their logarithmic differential expression value named as log2FoldChange or logFC and selected the first 150 most up-regulated genes (qup) and the 150 most down-regulated genes (qdown). In order to investigate gene profiles similar to that of both trabectedin and lurbinectedin, we used the previously cited CMap database in its modern version available at the clue platform (https://clue.io/). The CMap database contains over one million gene expression signatures derived from 9 cell lines modelling different tumor pathologies treated with more than 27,000 perturbagens, e.g. small-molecule compounds. The CMap uses cell responses to perturbation in order to find relationships between diseases, genes, and therapeutics. The similarity between a deposited signature and the one of interest is assessed through a score called ‘connectivity score’, in the range of -100 and +100. Connectivity scores are specific for each comparison; therefore, they consider one cell line at a time. However, it is useful to have a comprehensive score of all the single scores of a perturbagen across the whole set of cell lines. To this aim, CMap computes a perturbagen-centric measure of connectivity through a maximum quantile statistic that summarizes the results of a perturbagen observed in individual cell types. In this work we used this metric to assess the most related signature-compound profiles shared by all the datasets under study. In particular, we focused on strongly positive correlations with a connectivity score greater than +99 in order to identify drugs with similar transcriptional regulation as trabectedin or lurbinectedin. We identified six perturbagens that shared the highest connectivity across all the datasets, namely in a score-based order: mitomycin-c, importazole, SN-38, irinotecan, YC-1 and teniposide. These results partially confirm the already known synergism between trabectedin and the topoisomerase inhibitors class such as SN-38 and irinotecan, highlighting also a possible interaction with the teniposide, which is specifically a topoisomerase type II inhibitor. On the other hand, three drugs are proposed in this work as new synergisms with both trabectedin and lurbinectedin: YC-1, importazole and mitomycin-c. The first one, YC-1, despite being an anti-coagulant drug, has emerged as an anti-neoplastic treatment due to its ability to target the Hypoxia-inducible factor 1 alpha (HIF-1a). The second one, importazole, is a drug that interferes with the cell cycle by inhibiting importin-β-mediated nuclear import, while the third one, mytomicin-c, is an anti-neoplastic antibiotic that affects DNA synthesis. These drugs belong to different compound categories, however each of them reports a very high affinity to the gene signatures elicited by the two drugs under study, trabectedin and lurbinectedin. Moreover, it is worth noting that these high correlations of transcriptional profiles between the identified drugs and both trabectedin and lurbinectedin are shared by all the heterogenous datasets under study (i.e. leukemia, sarcoma, lymphoma, small cell lung cancer, myxoid liposarcoma and monocytes) implying a non-tissue-specific effect of both trabectedin and lurbinectedin that may suggest a possible synergistic use in different pathologies. In a second phase, to move the research at a deeper degree of detail, we investigated the drug signatures at the gene level. This analysis was conducted through a cross-comparison between the genes present in our datasets and the whole set of genes and cell lines retrieved from the CMap database available in GEO as GSE92742. To this aim, we developed a workflow that assigned a regulation value, -1 for down-regulation or +1 for up-regulation, for those genes that showed the same transcriptional behavior in at least the 70% of all the CMap samples across the nine cell lines under the same kind of treatment. Then, we compared these genes to those modulated by both trabectedin and lurbinectedin across all the datasets understudy and retained only the ones present in these datasets and the CMap database that were also coherently regulated by the drug. We identified 121 genes for irinotecan, 110 genes for teniposide, 106 genes for SN-38, 106 genes for mitomycin-c, 90 genes for YC-1 and finally 24 genes for importazole. Overall, we identified genes that are target of both trabectedin/lurbinectedin and already known drugs, i.e. that undergo the same transcriptional modulation. Lastly, to question whether the identified common genes could be linked to specific biological functions, we performed a pathway analysis. This systems biology approach allows to extract a biological meaning from a list of genes, and it is based on the scientific observation that genes do not work alone but in an intricate network of interactions. To this aim, we performed an enrichment analysis that through the hypergeometric distribution allows the identification of enriched pathways. As reference databases we used Reactome for signaling interactions and the Gene Ontology (GO) for biological processes. We analyzed genes from each drug-derived signature, independently. Interestingly, we identified two main biological categories, like the transcriptional regulation by TP53 and the cell cycle G2/M phase transition shared by all drugs except for importazole. The regulation of TP53 pathway has been already described in the literature as one of the main effects of trabectedin. In particular, the activation of this pathway represents one of the early events elicited by the drug. While the block in the G2/M phase transition is described as the main event in cell cycle regulation due to trabectedin. In the light of the above, we confirmed what is already known in the literature on the involvement of trabectedin in the biological processes of transcriptional regulation by TP53 and the cell cycle G2/M phase transition, and we also found the same involvement for five out of six drugs discovered. In particular, among the genes present in pathways that are shared by most of the drug signatures there are CDKN1A, CCNA2 and SFN, all belonging to the cell cycle regulation process. CDKN1A, that is up-regulated, encodes the p21 protein which controls the progression of the cell cycle at the checkpoint level between the G1 and S phases; CCNA2, down-regulated, encodes the Cyclin-A2 protein which promote transition through G1/S and G2/M phases while SNF, up-regulated, encodes the stratifin protein which is a cell cycle checkpoint. In conclusion, we confirmed the already known synergies of trabectedin with topoisomerase inhibitors such as irinotecan, SN-38 and teniposide. Furthermore, we propose new synergies for trabectedin and lurbinectedin with YC-1, importazole and mitomycin-c not yet reported in the literature. These three drugs belong to different pharmacological classifications and have been already tested for cancer treatment. They could be useful for drug combination treatments. The use of drug combinations is a useful strategy specially to overcome drug toxicity and resistance. Trabectedin and lurbinectedin are usually administered at nanomolar concentrations, however other drugs are effective at higher doses. Therefore, the use of combinatorial treatments is likely to change drug dosage, thus preferentially lowering side effects. It is worth noting that the proposed synergisms must be read as a two-sides effect: some can reinforce trabectedin effect, as well as trabectedin can boost the effect of the others. We described these synergisms at the gene level, and we showed that part of the synergisms are due to pharmacological effects, shared by both trabectedin and lurbinectedin and the five drugs proposed, on the transcription of TP53 pathway and the control of the cell cycle. The first merit of this work is the use of different biological models, such as cell lines, patient derived xenograft and human blood cells. The heterogeneity of the datasets has helped in the identification of a specific signature for trabectedin/lurbinectedin that is independent from the analyzed tissue. Then, besides the already known synergism with topoisomerase inhibitors, we identified three new compounds that can potentially be used in synergy with trabectedin or its analogue. Furthermore, we defined a workflow of comparison between experimental data from microarray technology and CMap reference database that can be replicated in many other similar cases. Finally, this work represents a good example of a bioinformatics and engineering development to answer a pharmacological issue, that perfectly matches the collaboration between the Politecnico di Milano and the Istituto di Ricerche Farmacologiche Mario Negri. Certainly, we also found limits to the work: the results could be performed on more than seven datasets, preferably in human tumor tissues, however we did not find any availability in public databases. Then, in silico approaches need to be tested experimentally for functional validation. Unfortunately, besides being out of the propose for this project, these experiments take a long time and could not be tested during the thesis work. This last point indicates a possible future development together with the exploration of possible synergisms performed on the whole set of cell lines that are not already present in the CMap database, but for which data are available in the public database GEO.

Letteralmente traducibile come “riposizionamento del farmaco”, il drug repositioning fa riferimento all'utilizzo di farmaci già disponibili per il trattamento di patologie diverse da quelle per cui sono stati sviluppati. La necessità di studiare farmaci già noti che possano essere potenzialmente utilizzati per nuove indicazioni o che siano in grado di ridurre l'effetto tossico di altri farmaci si è particolarmente diffusa negli ultimi anni. Le ragioni principali per questa spinta sono in primis il lungo e costoso processo necessario per lo sviluppo di un nuovo farmaco de novo e sicuramente una maggiore conoscenza dei meccanismi molecolari che regolano la biologia cellulare. Pertanto, l’utilizzo di un farmaco per nuovi scopi si sta rivelando sempre più interessante, infatti il ricorso a composti già approvati e testati comporta costi potenzialmente inferiori ed un guadagno temporale che riduce il processo da 10-17 anni a 3-12 anni. Dal punto di vista farmacologico, il drug repositioning si basa su due aspetti principali: il primo è la polifarmacologia di piccole molecole, cioè la capacità di un farmaco di agire su più di un bersaglio, mentre il secondo si basa sulle forti interconnessioni tra le vie metaboliche, ovvero sulla modulazione di un target che spesso influenza indirettamente l'attività complessiva di altri target. È esattamente in questo contesto che sono stati sviluppati approcci bioinformatici per il drug repositioning. Una spinta all'implementazione di metodi computazionali a questo scopo è arrivata nel maggio 2012 dall'American National Institute of Health (NIH) con il lancio del programma "Discovery of New Therapeutic Uses for Existing Molecules", che si basava sui dati genomici, trascrittomici e proteomici raccolti nei database pubblici, come KEGG, Uniprot, GEO (Gene Expression Omnibus) e DrugBank. L’approccio più utilizzato è il cosiddetto signature-based method, ovvero “metodo basato sulla firma”, che si basa su database che raccolgono dati su larga scala come la Connectivity Map (CMap) o la Library of Integrated Network-based Cellular Signatures (LINCS). Queste risorse mettono a disposizione profili trascrizionali di decine di linee cellulari trattate con migliaia di composti chimici da cui sono state ricavate firme di perturbazione dovute all’azione farmaco-specifica per determinare connessioni, somiglianze o differenze tra malattie, farmaci, geni. Il farmaco oggetto di studio di questo lavoro si chiama trabectedina. La trabectedina, scoperta nel 1969 e inizialmente isolata dalla tunicata marina Ecteinascidia turbinata, è un alchilante antitumorale con un meccanismo d'azione complesso che coinvolge diversi aspetti biologici come i meccanismi di riparazione del DNA e il microambiente tumorale, oltre ad essere noto per agire come regolatore trascrizionale. In termini farmacologici, la trabectedina è efficace a basse dosi e fino ad oggi è stata approvata per il trattamento di sarcomi dei tessuti molli (liposarcoma e leiomiosarcoma) e il carcinoma ovarico. Tuttavia, la tossicità epatica è un effetto collaterale riconosciuto. Per risolvere questo problema, è stato sviluppato un analogo chiamato lurbinectedina. La lurbinectedina sembra agire in modo simile alla trabectedina per quanto riguarda l'attività antiproliferativa, il danno al DNA e le perturbazioni del ciclo cellulare, oltre a ridurre gli effetti collaterali. La lurbinectedina è attualmente in sperimentazione di fase II per i pazienti affetti da leucemia acuta avanzata e da neoplasie endometriali, polmonari e mammarie. Il sinergismo farmacologico, ovvero il processo derivante dall'azione simultanea e combinata di due o più farmaci, può essere una strategia efficace per contrastare gli effetti collaterali o la resistenza acquisita al farmaco. Poiché la trabectedina viene utilizzata da anni, sono già stati dimostrati diversi sinergismi, quali la combinazione con irinotecano, un farmaco antitumorale inibitore della DNA topoisomerasi I, altamente efficace negli xenotrapianti umani di rabdomiosarcoma o con SN-38, il principale metabolita dell'irinotecano, efficace contro le cellule di carcinoma ovarico a cellule chiare (clear cell carcinoma, CCC) e nel trattamento del sarcoma di Ewing, o infine in combinazione con il pioglitazone come contrasto alla resistenza alla trabectedina nel liposarcoma mixoide (myxoid liposarcoma, MLS). D'altra parte, i modelli preclinici in vivo hanno dimostrato che la lurbinectedina è efficace nel trattamento dei tumori ovarici epiteliali in combinazione con il cisplatino, per i quali si è dimostrata una valida soluzione alla farmaco-resistenza. Alcuni studi hanno anche dimostrato la capacità della lurbinectedina di agire in sinergia con la gemcitabina inducendo un effetto antitumorale sul carcinoma pancreatico, ovarico e polmonare non a piccole cellule (non-small cell lung cancer, NSCLC). Il presente lavoro è stato realizzato in questo contesto grazie alla collaborazione tra il Politecnico di Milano e l'Istituto di Ricerche Farmacologiche Mario Negri, dove la trabectedina viene studiata da anni. Lo scopo del progetto è quello di studiare nuovi possibili sinergismi farmacologici per la trabectedina e il suo analogo lurbinectedina, attraverso un approccio di drug repositioning. Uno degli obiettivi della profilazione trascrizionale è quello di studiare il meccanismo d'azione dei farmaci in condizioni patologiche. La trabectedina appartiene alla classe di farmaci che agiscono a livello trascrizionale modulando specifici geni. Pertanto, siamo partiti da profili di espressione genica recuperati da fonti pubbliche come GEO e ArrayExpress o da dati non pubblicati appartenenti all'Istituto Mario Negri. In particolare, abbiamo preso in considerazione diversi modelli biologici, quali alcune linee cellulari, xenotrapianti derivati da paziente (patient derived xenograft, PDX) e monociti umani, tutti trattati con trabectedina o lurbinectedina in istanti temporali differenti. In dettaglio, abbiamo usato i dati provenienti da modelli di linea cellulare di leucemia mielomonocitica (MV4-11), tumore desmoplastico a piccole cellule rotonde (JNDSCRT1), linfoma diffuso a grandi cellule B diviso nei sottotipi di ‘germinal-center B-cell-like’ (OCI_Ly7) e ‘activated B-cell-like’ (U2932), carcinoma polmonare a piccole cellule (SHP77), quindi due modelli di xenotrapianto di liposarcoma mixoide (MLPS_PDX) derivati da paziente e infine monociti umani. Tutti i set di dati sono stati ottenuti attraverso la tecnologia dei microarray, un approccio ad alta produttività che consente l'identificazione simultanea di migliaia di geni espressi. Al fine di rendere i dati comparabili e coerenti, questi set di dati hanno subito lo stesso processamento analitico, attraverso il quale abbiamo eseguito la preelaborazione dei dati e il controllo di qualità. I geni differenzialmente espressi (differentially epressed genes, DEGs), che rappresentano quei geni il cui livello di espressione nel confronto trattato rispetto ai campioni di controllo risulta significativo, sono stati calcolati attraverso metodi lineari (Linear Models for Microarray, Limma). Tuttavia, i geni non possono essere considerati come test statistici indipendenti, poiché interagiscono tramite relazioni molecolari. Pertanto, in questo lavoro, abbiamo eseguito una correzione della significatività statistica (p-value) attraverso la correzione per test multipli quale il metodo chiamato False Discovery Rate (FDR) di Benjamini – Hochberg (BH), considerando significativi quei geni con un p-value corretto inferiore a 0,05. Infine, poiché i geni sono rappresentati da identificativi determinati dalle aziende che li hanno prodotti, abbiamo creato pacchetti di annotazioni ad-hoc, al fine di associare ogni sonda a identificativi universalmente riconosciuti, quali Gene Symbols e Entrez IDs. Il numero di geni modulati può variare da decine a migliaia a seconda del caso, tuttavia, quei geni che mostrano la più alta regolazione rappresentano una caratteristica specifica di quella condizione e possono essere definiti come firma o signature. Per questo motivo, per ogni dataset abbiamo ordinato i DEGs in ordine decrescente in base al loro valore di espressione differenziale logaritmica denominato log2FoldChange o logFC, e selezionato i 150 geni più espressi (qup) e i 150 geni più inibiti (qdown). Al fine di studiare i profili trascrizionali simili a quelli di trabectedina e lurbinectedina, abbiamo utilizzato il database CMap, precedentemente citato, nella sua versione moderna disponibile sulla piattaforma clue (https://clue.io/). Il database CMap contiene oltre un milione di firme di espressione genica derivate da 9 linee cellulari che rappresentano diverse patologie tumorali trattate con oltre 27.000 perturbageni, ovvero composti farmacologici. CMap utilizza le risposte cellulari al trattamento al fine di trovare relazioni tra malattia, geni e terapia. La similarità tra una firma depositata e quella di interesse viene valutata attraverso un punteggio chiamato "punteggio di connettività", compreso tra -100 e +100. I punteggi di connettività sono specifici per ciascun confronto, pertanto considerano una linea cellulare alla volta. Tuttavia, è utile disporre di un punteggio complessivo di tutti i singoli punteggi di un perturbageno nell'intero insieme di linee cellulari. A tale scopo, CMap calcola una misura della connettività centrata sul perturbageno ed associata al massimo quantile che riassume i risultati di un perturbageno osservato nei singoli tipi di cellule. In questo lavoro abbiamo utilizzato proprio questa metrica per valutare i profili signature - perturbageno più correlati e condivisi da tutti i datasets in esame. In particolare, ci siamo concentrati sulle correlazioni fortemente positive con un punteggio di connettività maggiore di +99, al fine di identificare i farmaci con una regolazione trascrizionale simile a quella della trabectedina o della lurbinectedina. Abbiamo infine identificato sei perturbageni che condividevano la massima connettività tra tutti i datasets, che sono in ordine di punteggio: mitomicina-c, importazole, SN-38, irinotecano, YC-1 e teniposide. Questi risultati confermano parzialmente il sinergismo già noto tra la trabectedina e la classe di inibitori delle topoisomerasi, quali SN-38 e irinotecano, evidenziando anche una possibile interazione con la teniposide, che è specificatamente un inibitore delle topoisomerasi di tipo II. Inoltre, in questo lavoro vengono proposti come nuovi sinergismi con la trabectedina e la lurbinectedina, tre farmaci: YC-1, importazole e mitomicina-c. Il primo, YC-1, nonostante sia un farmaco anticoagulante, viene utilizzato anche come trattamento antineoplastico grazie alla sua capacità di colpire il fattore 1 alfa inducibile dall'ipossia (Hypoxia-inducible factor 1 alpha, HIF-1a). Il secondo, importazole, è un farmaco che interferisce con il ciclo cellulare inibendo l’azione dell’importina-β, mentre il terzo, la mitomicina-c, è un antibiotico antineoplastico che interferisce con la sintesi del DNA. Questi farmaci appartengono a diverse categorie di composti, tuttavia ciascuno di essi presenta un'affinità molto elevata con le signatures geniche dei due farmaci in studio, trabectedina e lurbinectedina. Inoltre, vale la pena notare che queste alte correlazioni dei profili trascrizionali tra i farmaci identificati e sia trabectedina che lurbinectedina sono condivise tra tutti i datasets oggetto di studio che sono estremamente eterogeni tra loro, rappresentando diverse patologie quali leucemia, sarcoma, linfoma, carcinoma polmonare a piccole cellule, liposarcoma mixoide e monociti. Questo implica che trabectedina e lurbinectedina esplicano un effetto non tessuto-specifico, che può quindi suggerire un possibile uso sinergico in diverse patologie. In una seconda fase, per spostare la ricerca ad un livello di dettaglio maggiore, abbiamo studiato le signatures dei farmaci a livello dei singoli geni. Questa analisi è stata condotta attraverso un confronto incrociato tra i geni presenti nei nostri datasets e l'intero insieme di geni e linee cellulari del database CMap, disponibile in GEO come GSE92742. A questo scopo, abbiamo sviluppato un workflow che assegna un valore di regolazione, -1 per i geni inibiti o +1 per i geni attivati, a quei geni che vengono modulati allo stesso modo in almeno il 70% di tutti i campioni della CMap considerando le nove linee cellulari sotto lo stesso tipo di trattamento. Quindi, abbiamo confrontato questi geni con quelli modulati sia dalla trabectedina che dalla lurbinectedina in tutti i datasets in esame e abbiamo selezionato solo quelli presenti sia in questo set di dati che nel database CMap e che avessero anche lo stesso segno di regolazione. In questo modo abbiamo identificato 121 geni per irinotecano, 110 geni per teniposide, 106 geni per SN-38, 106 geni per mitomicina-c, 90 geni per YC-1 e infine 24 geni per importazole. Nel complesso, abbiamo identificato i geni che sono bersaglio sia della trabectedina / lurbinectedina sia di farmaci già noti, vale a dire che subiscono la stessa modulazione trascrizionale. Infine, per comprendere se i geni comuni identificati potessero essere coinvolti in specifiche reti biologiche, abbiamo eseguito un'analisi dei pathways. Questo approccio della biologia dei sistemi consente di estrarre un significato biologico da un elenco di geni e si basa sull'osservazione scientifica che i geni non sono indipendenti tra loro, ma interagiscono in una complessa rete di interazioni. A tal fine, abbiamo eseguito un'analisi di arricchimento che, attraverso la distribuzione ipergeometrica, consente l'identificazione dei pathways arricchiti. Come database di riferimento abbiamo utilizzato Reactome per le interazioni di segnale e Gene Ontology (GO) per i processi biologici. A questo scopo abbiamo analizzato in maniera indipendente i geni associati ad ogni farmaco. È interessante notare che per tutti i farmaci, ad eccezione dell'importazole, abbiamo identificato due principali categorie biologiche, quali la regolazione trascrizionale da parte di TP53 e la transizione di fase G2 / M del ciclo cellulare. Il pathway della regolazione trascrizionale da parte di TP53 è già stato descritto in letteratura come uno dei principali bersagli della trabectedina. In particolare, l'attivazione di questo pathway rappresenta uno dei primi eventi suscitati dal farmaco. Mentre il blocco nella transizione di fase G2 / M è descritto come l'evento principale nella regolazione del ciclo cellulare dovuto alla trabectedina. Alla luce di quanto sopra, abbiamo confermato quanto già noto in letteratura sull’effetto della trabectedina nei processi biologici di regolazione trascrizionale da parte di TP53 e nella transizione di fase G2 / M del ciclo cellulare, e abbiamo anche riscontrato lo stesso coinvolgimento per cinque dei sei farmaci scoperti. In particolare, tra i geni presenti nei pathways condivisi ci sono CDKN1A, CCNA2 e SFN, tutti coinvolti nel processo di regolazione del ciclo cellulare. CDKN1A, che è attivato, codifica la proteina p21 che controlla la progressione del ciclo cellulare a livello di checkpoint tra le fasi G1 e S; CCNA2, che è spento, codifica la proteina Cyclin-A2 che promuove la transizione attraverso le fasi G1 / S e G2 / M; mentre SNF, che è attivato, codifica la proteina stratifina che rappresenta un checkpoint del ciclo cellulare. In conclusione, abbiamo confermato i sinergismi già noti per la trabectedina con gli inibitori delle topoisomerasi, quali irinotecano, SN-38 e teniposide. Inoltre, in questo lavoro proponiamo nuove sinergie non ancora riportate in letteratura per trabectedina e lurbinectedina con YC-1, importazole e mitomicina-c. Questi tre farmaci, appartenenti a diverse classi farmacologiche, sono già stati testati per il trattamento di patologie tumorali, ma potrebbero quindi rivelarsi efficaci anche come trattamenti in combinazione. Il ricorso a terapie in cui si usano combinazioni di farmaci si rivela utile soprattutto in contrasto alla tossicità o alla resistenza acquisita. Trabectedina e lurbinectedina vengono generalmente somministrate a concentrazioni nanomolari, tuttavia altri farmaci sono efficaci a dosi più elevate. L'utilizzo di trattamenti combinatori permette di cambiare il dosaggio del farmaco, riducendo così gli effetti collaterali. Vale la pena notare che i sinergismi proposti devono essere letti ad effetto bidirezionale: alcuni possono rafforzare l'effetto della trabectedina, così come la trabectedina potrebbe aumentare l'effetto degli altri. Inoltre, la descrizione di tali sinergismi a livello di pathway funzionali ha mostrato che essi sono dovuti principalmente all’azione condivisa sia dalla trabectedina che dalla lurbinectedina e dai cinque farmaci proposti sul pathway della regolazione trascrizionale da parte di TP53 e sul controllo del ciclo cellulare. Il primo merito di questo lavoro va attribuito all'utilizzo di diversi modelli biologici, quali linee cellulari, xenotrapianti derivati da paziente e cellule del sangue. L'eterogeneità dei datasets ha aiutato ad identificare una signature per trabectedina / lurbinectedina che è indipendente dal tessuto analizzato. Quindi, oltre al già noto sinergismo con gli inibitori delle topoisomerasi, abbiamo identificato tre nuovi composti che possono essere potenzialmente utilizzati in sinergia con la trabectedina o il suo analogo. Inoltre, abbiamo definito un workflow di analisi applicato a dati sperimentali provenienti dalla tecnologia dei microarray ed il database di riferimento CMap che può essere replicato ad altri dataset per rispondere alle stesse domande farmacologiche. Infine, questo lavoro rappresenta un buon esempio di approccio bioinformatico ed ingegneristico sviluppato per rispondere ad un problema farmacologico, che si abbina perfettamente alla collaborazione tra il Politecnico di Milano e l'Istituto di Ricerche Farmacologiche Mario Negri. D’altro canto, abbiamo riscontrato anche alcuni limiti in questo lavoro: si sarebbero potuti utilizzare molti più datasets, preferibilmente da tessuti tumorali umani, tuttavia non vi era alcuna disponibilità nei database pubblici. Inoltre, gli approcci in silico necessitano generalmente di prove sperimentali per la validazione funzionale. Purtroppo, oltre ad essere fuori dallo scopo di questo progetto, questi esperimenti impiegano molto tempo e non è stato possibile testarli durante il lavoro di tesi. Quest’ ultimo punto rappresenta un possibile sviluppo futuro, insieme all'esplorazione di possibili sinergismi eseguiti sull'intero insieme di linee cellulari che non sono ancora presenti nel database CMap, ma per i quali sono disponibili dati nel database pubblico GEO.

A computational drug repositioning approach towards new pharmacological strategies for trabectedin treatment

RAVASIO, NICHOLAS
2018/2019

Abstract

Drug repositioning, also known as drug repurposing, refers to the use of already available drugs for treating conditions different from the original treatment purposes. In recent years, a new need has born to study old drugs that can be potentially used for new indications or that can decrease the toxic effect of other drugs. The main reasons that have led to drug repositioning are the long-term and expensive process needed for the development of a new drug and also the increased knowledge on the molecular mechanisms that govern cell biology. Therefore, the repurposing of old drugs for the treatment of diseases has become attractive: it involves the use of already approved and tested compounds with potentially lower costs and a temporal gain that reduces the 10 to 17 years process to 3 to 12 years. From a pharmacological point of view, drug repositioning is based on two main aspects: the first one is the polypharmacology of small molecules, that refers to drugs active on more than one target, while the second relies on the connections among metabolic pathways, so that the modulation of one target can affect indirectly the overall activity of other targets. It is exactly in this context that bioinformatics approaches for drug repositioning have been developed. A boost to the implementation of drug repositioning tools came from the American National Institute of Health (NIH) with the launch of the program “Discovery of New Therapeutic Uses for Existing Molecules” in May 2012, which relied on genomic, transcriptomic and proteomic data collected in public databases, such as KEGG, Uniprot, GEO (Gene Expression Omnibus), and DrugBank. One popular approach is the so-called signature-based method, which includes large-scale perturbation databases such as the Connectivity Map (CMap) or the Library of Integrated Network-based Cellular Signatures (LINCS). These resources store transcriptomic profiles of dozens of cultivated cell lines treated with thousands of chemical compounds from which drug-perturbation signatures have been derived to determine connections, similarities or dissimilarities among diseases, drugs, genes and pathways. In this work, the drug under study is called trabectedin. Trabectedin was discovered in 1969 and initially isolated from the marine ascidian Ecteinascidia turbinate. It is an anti-cancer DNA-binding agent with a complex mechanism of action which involves different biological aspects such as the DNA repair mechanisms and the tumor microenvironment, and it is also known to act as transcriptional regulator. In pharmacological terms, trabectedin is effective at low doses and to date it has been approved for the treatment of soft tissue sarcomas (liposarcoma and leiomyosarcoma) and ovarian cancer. However, liver toxicity is a recognized side effect. In order to overcome this issue, an analogue called lurbinectedin has been developed. Lurbinectedin appears to act similarly to trabectedin with regards to anti-proliferative activity, damage to DNA and cell cycle perturbations, despite lowering the side effects. Lurbinectedin is currently in phase II of experimentation for patients suffering from advanced acute leukemia and from endometrial, lung and breast malignancies. To overcome side effects or acquired drug resistance, it is possible to resort to pharmacological synergism, that is the process resulting from the simultaneous and combined action of two or more drugs. Since trabectedin has been used for years, different synergisms have been already demonstrated, such as the combination with irinotecan, an anticancer DNA topoisomerase I inhibitor, highly effective in a human rhabdomyosarcoma xenograft, or with SN-38, the major metabolite of irinotecan, effective against ovarian clear cell carcinoma (CCC) cells and in the Ewing’s Sarcoma treatment, or lastly in combination with pioglitazone to overcome trabectedin resistance in myxoid liposarcoma (MLS). On the other hand, in vivo preclinical models have shown that lurbinectedin is effective in treating epithelial ovarian tumors in combination with cisplatin, appearing to overcome the resistance of cancer cells to this last. Some studies have also shown the ability of lurbinectedin to act in synergy with gemcitabine inducing an antitumor effect on pancreatic, ovarian and non-small cell lung cancer (NSCLC). The present work has been developed in this framework within a collaboration between Politecnico di Milano and Istituto di Ricerche Farmacologiche Mario Negri, where trabectedin has been studied for years. The aim of the project is to investigate new possible pharmacological synergies for trabectedin, or its analogue lurbinectedin, through a drug repositioning approach. One of the goals of transcriptional profiling is to study the mechanism of action of the drugs in pathological conditions. Trabectedin belongs to the class of drug that act at the transcriptional level, activating specific gene networks. Therefore, we started from gene expression profiles retrieved from public sources like GEO and ArrayExpress, or unpublished data belonging to the Mario Negri Institute. In particular, we took into account different biological models, such as cell lines, patient derived xenograft (PDX) and human monocytes, treated either with trabectedin or lurbinectedin at different time points. In details, we used data from cell line models of myelomonocytic leukemia (MV4-11), desmoplastic small round cell tumor (JNDSCRT1), diffuse large B cell lymphoma divided in germinal center B cell (OCI_Ly7) and activated B cell-like (U2932) subtypes, small cell lung cancer (SHP77), then two patient-derived xenograft models of myxoid liposarcoma (MLPS_PDX), and finally human monocytes. All datasets were obtained through microarray technology, a high throughput approach that allows the simultaneous identification of thousands of expressed genes. In order to make data comparable and coherent, these datasets underwent the same workflow of analysis through which we performed data pre-processing and quality control. Differentially expressed genes (DEGs), that represent those genes for which a change in the expression level was observed in the comparison treated versus control samples, were computed through linear methods (Limma, Linear Models for Microarray). However, genes cannot be considered as independent statistical test, since they are connected by molecular relationship. Therefore, in this work, we performed a correction to the statistical significance (p-value) through multiple testing correction like the False Discovery Rate (FDR) method from Benjamini–Hochberg (BH), considering significant those genes with an adjusted p-value less than 0.05. Finally, since genes are represented by company-made probes identifiers, we created ad-hoc annotation packages, in order to link each probe to universally known identifiers, such as Gene Symbols and Entrez IDs. The number of modulated genes can vary from dozens to thousands according to the case, however, those genes that show the highest regulation consist altogether in a specific feature of that condition and can be termed as signature. For this reason, for each dataset we sorted DEGs in descending order based on their logarithmic differential expression value named as log2FoldChange or logFC and selected the first 150 most up-regulated genes (qup) and the 150 most down-regulated genes (qdown). In order to investigate gene profiles similar to that of both trabectedin and lurbinectedin, we used the previously cited CMap database in its modern version available at the clue platform (https://clue.io/). The CMap database contains over one million gene expression signatures derived from 9 cell lines modelling different tumor pathologies treated with more than 27,000 perturbagens, e.g. small-molecule compounds. The CMap uses cell responses to perturbation in order to find relationships between diseases, genes, and therapeutics. The similarity between a deposited signature and the one of interest is assessed through a score called ‘connectivity score’, in the range of -100 and +100. Connectivity scores are specific for each comparison; therefore, they consider one cell line at a time. However, it is useful to have a comprehensive score of all the single scores of a perturbagen across the whole set of cell lines. To this aim, CMap computes a perturbagen-centric measure of connectivity through a maximum quantile statistic that summarizes the results of a perturbagen observed in individual cell types. In this work we used this metric to assess the most related signature-compound profiles shared by all the datasets under study. In particular, we focused on strongly positive correlations with a connectivity score greater than +99 in order to identify drugs with similar transcriptional regulation as trabectedin or lurbinectedin. We identified six perturbagens that shared the highest connectivity across all the datasets, namely in a score-based order: mitomycin-c, importazole, SN-38, irinotecan, YC-1 and teniposide. These results partially confirm the already known synergism between trabectedin and the topoisomerase inhibitors class such as SN-38 and irinotecan, highlighting also a possible interaction with the teniposide, which is specifically a topoisomerase type II inhibitor. On the other hand, three drugs are proposed in this work as new synergisms with both trabectedin and lurbinectedin: YC-1, importazole and mitomycin-c. The first one, YC-1, despite being an anti-coagulant drug, has emerged as an anti-neoplastic treatment due to its ability to target the Hypoxia-inducible factor 1 alpha (HIF-1a). The second one, importazole, is a drug that interferes with the cell cycle by inhibiting importin-β-mediated nuclear import, while the third one, mytomicin-c, is an anti-neoplastic antibiotic that affects DNA synthesis. These drugs belong to different compound categories, however each of them reports a very high affinity to the gene signatures elicited by the two drugs under study, trabectedin and lurbinectedin. Moreover, it is worth noting that these high correlations of transcriptional profiles between the identified drugs and both trabectedin and lurbinectedin are shared by all the heterogenous datasets under study (i.e. leukemia, sarcoma, lymphoma, small cell lung cancer, myxoid liposarcoma and monocytes) implying a non-tissue-specific effect of both trabectedin and lurbinectedin that may suggest a possible synergistic use in different pathologies. In a second phase, to move the research at a deeper degree of detail, we investigated the drug signatures at the gene level. This analysis was conducted through a cross-comparison between the genes present in our datasets and the whole set of genes and cell lines retrieved from the CMap database available in GEO as GSE92742. To this aim, we developed a workflow that assigned a regulation value, -1 for down-regulation or +1 for up-regulation, for those genes that showed the same transcriptional behavior in at least the 70% of all the CMap samples across the nine cell lines under the same kind of treatment. Then, we compared these genes to those modulated by both trabectedin and lurbinectedin across all the datasets understudy and retained only the ones present in these datasets and the CMap database that were also coherently regulated by the drug. We identified 121 genes for irinotecan, 110 genes for teniposide, 106 genes for SN-38, 106 genes for mitomycin-c, 90 genes for YC-1 and finally 24 genes for importazole. Overall, we identified genes that are target of both trabectedin/lurbinectedin and already known drugs, i.e. that undergo the same transcriptional modulation. Lastly, to question whether the identified common genes could be linked to specific biological functions, we performed a pathway analysis. This systems biology approach allows to extract a biological meaning from a list of genes, and it is based on the scientific observation that genes do not work alone but in an intricate network of interactions. To this aim, we performed an enrichment analysis that through the hypergeometric distribution allows the identification of enriched pathways. As reference databases we used Reactome for signaling interactions and the Gene Ontology (GO) for biological processes. We analyzed genes from each drug-derived signature, independently. Interestingly, we identified two main biological categories, like the transcriptional regulation by TP53 and the cell cycle G2/M phase transition shared by all drugs except for importazole. The regulation of TP53 pathway has been already described in the literature as one of the main effects of trabectedin. In particular, the activation of this pathway represents one of the early events elicited by the drug. While the block in the G2/M phase transition is described as the main event in cell cycle regulation due to trabectedin. In the light of the above, we confirmed what is already known in the literature on the involvement of trabectedin in the biological processes of transcriptional regulation by TP53 and the cell cycle G2/M phase transition, and we also found the same involvement for five out of six drugs discovered. In particular, among the genes present in pathways that are shared by most of the drug signatures there are CDKN1A, CCNA2 and SFN, all belonging to the cell cycle regulation process. CDKN1A, that is up-regulated, encodes the p21 protein which controls the progression of the cell cycle at the checkpoint level between the G1 and S phases; CCNA2, down-regulated, encodes the Cyclin-A2 protein which promote transition through G1/S and G2/M phases while SNF, up-regulated, encodes the stratifin protein which is a cell cycle checkpoint. In conclusion, we confirmed the already known synergies of trabectedin with topoisomerase inhibitors such as irinotecan, SN-38 and teniposide. Furthermore, we propose new synergies for trabectedin and lurbinectedin with YC-1, importazole and mitomycin-c not yet reported in the literature. These three drugs belong to different pharmacological classifications and have been already tested for cancer treatment. They could be useful for drug combination treatments. The use of drug combinations is a useful strategy specially to overcome drug toxicity and resistance. Trabectedin and lurbinectedin are usually administered at nanomolar concentrations, however other drugs are effective at higher doses. Therefore, the use of combinatorial treatments is likely to change drug dosage, thus preferentially lowering side effects. It is worth noting that the proposed synergisms must be read as a two-sides effect: some can reinforce trabectedin effect, as well as trabectedin can boost the effect of the others. We described these synergisms at the gene level, and we showed that part of the synergisms are due to pharmacological effects, shared by both trabectedin and lurbinectedin and the five drugs proposed, on the transcription of TP53 pathway and the control of the cell cycle. The first merit of this work is the use of different biological models, such as cell lines, patient derived xenograft and human blood cells. The heterogeneity of the datasets has helped in the identification of a specific signature for trabectedin/lurbinectedin that is independent from the analyzed tissue. Then, besides the already known synergism with topoisomerase inhibitors, we identified three new compounds that can potentially be used in synergy with trabectedin or its analogue. Furthermore, we defined a workflow of comparison between experimental data from microarray technology and CMap reference database that can be replicated in many other similar cases. Finally, this work represents a good example of a bioinformatics and engineering development to answer a pharmacological issue, that perfectly matches the collaboration between the Politecnico di Milano and the Istituto di Ricerche Farmacologiche Mario Negri. Certainly, we also found limits to the work: the results could be performed on more than seven datasets, preferably in human tumor tissues, however we did not find any availability in public databases. Then, in silico approaches need to be tested experimentally for functional validation. Unfortunately, besides being out of the propose for this project, these experiments take a long time and could not be tested during the thesis work. This last point indicates a possible future development together with the exploration of possible synergisms performed on the whole set of cell lines that are not already present in the CMap database, but for which data are available in the public database GEO.
MANNARINO , LAURA
MARCHINI, SERGIO
ING - Scuola di Ingegneria Industriale e dell'Informazione
29-apr-2020
2018/2019
Letteralmente traducibile come “riposizionamento del farmaco”, il drug repositioning fa riferimento all'utilizzo di farmaci già disponibili per il trattamento di patologie diverse da quelle per cui sono stati sviluppati. La necessità di studiare farmaci già noti che possano essere potenzialmente utilizzati per nuove indicazioni o che siano in grado di ridurre l'effetto tossico di altri farmaci si è particolarmente diffusa negli ultimi anni. Le ragioni principali per questa spinta sono in primis il lungo e costoso processo necessario per lo sviluppo di un nuovo farmaco de novo e sicuramente una maggiore conoscenza dei meccanismi molecolari che regolano la biologia cellulare. Pertanto, l’utilizzo di un farmaco per nuovi scopi si sta rivelando sempre più interessante, infatti il ricorso a composti già approvati e testati comporta costi potenzialmente inferiori ed un guadagno temporale che riduce il processo da 10-17 anni a 3-12 anni. Dal punto di vista farmacologico, il drug repositioning si basa su due aspetti principali: il primo è la polifarmacologia di piccole molecole, cioè la capacità di un farmaco di agire su più di un bersaglio, mentre il secondo si basa sulle forti interconnessioni tra le vie metaboliche, ovvero sulla modulazione di un target che spesso influenza indirettamente l'attività complessiva di altri target. È esattamente in questo contesto che sono stati sviluppati approcci bioinformatici per il drug repositioning. Una spinta all'implementazione di metodi computazionali a questo scopo è arrivata nel maggio 2012 dall'American National Institute of Health (NIH) con il lancio del programma "Discovery of New Therapeutic Uses for Existing Molecules", che si basava sui dati genomici, trascrittomici e proteomici raccolti nei database pubblici, come KEGG, Uniprot, GEO (Gene Expression Omnibus) e DrugBank. L’approccio più utilizzato è il cosiddetto signature-based method, ovvero “metodo basato sulla firma”, che si basa su database che raccolgono dati su larga scala come la Connectivity Map (CMap) o la Library of Integrated Network-based Cellular Signatures (LINCS). Queste risorse mettono a disposizione profili trascrizionali di decine di linee cellulari trattate con migliaia di composti chimici da cui sono state ricavate firme di perturbazione dovute all’azione farmaco-specifica per determinare connessioni, somiglianze o differenze tra malattie, farmaci, geni. Il farmaco oggetto di studio di questo lavoro si chiama trabectedina. La trabectedina, scoperta nel 1969 e inizialmente isolata dalla tunicata marina Ecteinascidia turbinata, è un alchilante antitumorale con un meccanismo d'azione complesso che coinvolge diversi aspetti biologici come i meccanismi di riparazione del DNA e il microambiente tumorale, oltre ad essere noto per agire come regolatore trascrizionale. In termini farmacologici, la trabectedina è efficace a basse dosi e fino ad oggi è stata approvata per il trattamento di sarcomi dei tessuti molli (liposarcoma e leiomiosarcoma) e il carcinoma ovarico. Tuttavia, la tossicità epatica è un effetto collaterale riconosciuto. Per risolvere questo problema, è stato sviluppato un analogo chiamato lurbinectedina. La lurbinectedina sembra agire in modo simile alla trabectedina per quanto riguarda l'attività antiproliferativa, il danno al DNA e le perturbazioni del ciclo cellulare, oltre a ridurre gli effetti collaterali. La lurbinectedina è attualmente in sperimentazione di fase II per i pazienti affetti da leucemia acuta avanzata e da neoplasie endometriali, polmonari e mammarie. Il sinergismo farmacologico, ovvero il processo derivante dall'azione simultanea e combinata di due o più farmaci, può essere una strategia efficace per contrastare gli effetti collaterali o la resistenza acquisita al farmaco. Poiché la trabectedina viene utilizzata da anni, sono già stati dimostrati diversi sinergismi, quali la combinazione con irinotecano, un farmaco antitumorale inibitore della DNA topoisomerasi I, altamente efficace negli xenotrapianti umani di rabdomiosarcoma o con SN-38, il principale metabolita dell'irinotecano, efficace contro le cellule di carcinoma ovarico a cellule chiare (clear cell carcinoma, CCC) e nel trattamento del sarcoma di Ewing, o infine in combinazione con il pioglitazone come contrasto alla resistenza alla trabectedina nel liposarcoma mixoide (myxoid liposarcoma, MLS). D'altra parte, i modelli preclinici in vivo hanno dimostrato che la lurbinectedina è efficace nel trattamento dei tumori ovarici epiteliali in combinazione con il cisplatino, per i quali si è dimostrata una valida soluzione alla farmaco-resistenza. Alcuni studi hanno anche dimostrato la capacità della lurbinectedina di agire in sinergia con la gemcitabina inducendo un effetto antitumorale sul carcinoma pancreatico, ovarico e polmonare non a piccole cellule (non-small cell lung cancer, NSCLC). Il presente lavoro è stato realizzato in questo contesto grazie alla collaborazione tra il Politecnico di Milano e l'Istituto di Ricerche Farmacologiche Mario Negri, dove la trabectedina viene studiata da anni. Lo scopo del progetto è quello di studiare nuovi possibili sinergismi farmacologici per la trabectedina e il suo analogo lurbinectedina, attraverso un approccio di drug repositioning. Uno degli obiettivi della profilazione trascrizionale è quello di studiare il meccanismo d'azione dei farmaci in condizioni patologiche. La trabectedina appartiene alla classe di farmaci che agiscono a livello trascrizionale modulando specifici geni. Pertanto, siamo partiti da profili di espressione genica recuperati da fonti pubbliche come GEO e ArrayExpress o da dati non pubblicati appartenenti all'Istituto Mario Negri. In particolare, abbiamo preso in considerazione diversi modelli biologici, quali alcune linee cellulari, xenotrapianti derivati da paziente (patient derived xenograft, PDX) e monociti umani, tutti trattati con trabectedina o lurbinectedina in istanti temporali differenti. In dettaglio, abbiamo usato i dati provenienti da modelli di linea cellulare di leucemia mielomonocitica (MV4-11), tumore desmoplastico a piccole cellule rotonde (JNDSCRT1), linfoma diffuso a grandi cellule B diviso nei sottotipi di ‘germinal-center B-cell-like’ (OCI_Ly7) e ‘activated B-cell-like’ (U2932), carcinoma polmonare a piccole cellule (SHP77), quindi due modelli di xenotrapianto di liposarcoma mixoide (MLPS_PDX) derivati da paziente e infine monociti umani. Tutti i set di dati sono stati ottenuti attraverso la tecnologia dei microarray, un approccio ad alta produttività che consente l'identificazione simultanea di migliaia di geni espressi. Al fine di rendere i dati comparabili e coerenti, questi set di dati hanno subito lo stesso processamento analitico, attraverso il quale abbiamo eseguito la preelaborazione dei dati e il controllo di qualità. I geni differenzialmente espressi (differentially epressed genes, DEGs), che rappresentano quei geni il cui livello di espressione nel confronto trattato rispetto ai campioni di controllo risulta significativo, sono stati calcolati attraverso metodi lineari (Linear Models for Microarray, Limma). Tuttavia, i geni non possono essere considerati come test statistici indipendenti, poiché interagiscono tramite relazioni molecolari. Pertanto, in questo lavoro, abbiamo eseguito una correzione della significatività statistica (p-value) attraverso la correzione per test multipli quale il metodo chiamato False Discovery Rate (FDR) di Benjamini – Hochberg (BH), considerando significativi quei geni con un p-value corretto inferiore a 0,05. Infine, poiché i geni sono rappresentati da identificativi determinati dalle aziende che li hanno prodotti, abbiamo creato pacchetti di annotazioni ad-hoc, al fine di associare ogni sonda a identificativi universalmente riconosciuti, quali Gene Symbols e Entrez IDs. Il numero di geni modulati può variare da decine a migliaia a seconda del caso, tuttavia, quei geni che mostrano la più alta regolazione rappresentano una caratteristica specifica di quella condizione e possono essere definiti come firma o signature. Per questo motivo, per ogni dataset abbiamo ordinato i DEGs in ordine decrescente in base al loro valore di espressione differenziale logaritmica denominato log2FoldChange o logFC, e selezionato i 150 geni più espressi (qup) e i 150 geni più inibiti (qdown). Al fine di studiare i profili trascrizionali simili a quelli di trabectedina e lurbinectedina, abbiamo utilizzato il database CMap, precedentemente citato, nella sua versione moderna disponibile sulla piattaforma clue (https://clue.io/). Il database CMap contiene oltre un milione di firme di espressione genica derivate da 9 linee cellulari che rappresentano diverse patologie tumorali trattate con oltre 27.000 perturbageni, ovvero composti farmacologici. CMap utilizza le risposte cellulari al trattamento al fine di trovare relazioni tra malattia, geni e terapia. La similarità tra una firma depositata e quella di interesse viene valutata attraverso un punteggio chiamato "punteggio di connettività", compreso tra -100 e +100. I punteggi di connettività sono specifici per ciascun confronto, pertanto considerano una linea cellulare alla volta. Tuttavia, è utile disporre di un punteggio complessivo di tutti i singoli punteggi di un perturbageno nell'intero insieme di linee cellulari. A tale scopo, CMap calcola una misura della connettività centrata sul perturbageno ed associata al massimo quantile che riassume i risultati di un perturbageno osservato nei singoli tipi di cellule. In questo lavoro abbiamo utilizzato proprio questa metrica per valutare i profili signature - perturbageno più correlati e condivisi da tutti i datasets in esame. In particolare, ci siamo concentrati sulle correlazioni fortemente positive con un punteggio di connettività maggiore di +99, al fine di identificare i farmaci con una regolazione trascrizionale simile a quella della trabectedina o della lurbinectedina. Abbiamo infine identificato sei perturbageni che condividevano la massima connettività tra tutti i datasets, che sono in ordine di punteggio: mitomicina-c, importazole, SN-38, irinotecano, YC-1 e teniposide. Questi risultati confermano parzialmente il sinergismo già noto tra la trabectedina e la classe di inibitori delle topoisomerasi, quali SN-38 e irinotecano, evidenziando anche una possibile interazione con la teniposide, che è specificatamente un inibitore delle topoisomerasi di tipo II. Inoltre, in questo lavoro vengono proposti come nuovi sinergismi con la trabectedina e la lurbinectedina, tre farmaci: YC-1, importazole e mitomicina-c. Il primo, YC-1, nonostante sia un farmaco anticoagulante, viene utilizzato anche come trattamento antineoplastico grazie alla sua capacità di colpire il fattore 1 alfa inducibile dall'ipossia (Hypoxia-inducible factor 1 alpha, HIF-1a). Il secondo, importazole, è un farmaco che interferisce con il ciclo cellulare inibendo l’azione dell’importina-β, mentre il terzo, la mitomicina-c, è un antibiotico antineoplastico che interferisce con la sintesi del DNA. Questi farmaci appartengono a diverse categorie di composti, tuttavia ciascuno di essi presenta un'affinità molto elevata con le signatures geniche dei due farmaci in studio, trabectedina e lurbinectedina. Inoltre, vale la pena notare che queste alte correlazioni dei profili trascrizionali tra i farmaci identificati e sia trabectedina che lurbinectedina sono condivise tra tutti i datasets oggetto di studio che sono estremamente eterogeni tra loro, rappresentando diverse patologie quali leucemia, sarcoma, linfoma, carcinoma polmonare a piccole cellule, liposarcoma mixoide e monociti. Questo implica che trabectedina e lurbinectedina esplicano un effetto non tessuto-specifico, che può quindi suggerire un possibile uso sinergico in diverse patologie. In una seconda fase, per spostare la ricerca ad un livello di dettaglio maggiore, abbiamo studiato le signatures dei farmaci a livello dei singoli geni. Questa analisi è stata condotta attraverso un confronto incrociato tra i geni presenti nei nostri datasets e l'intero insieme di geni e linee cellulari del database CMap, disponibile in GEO come GSE92742. A questo scopo, abbiamo sviluppato un workflow che assegna un valore di regolazione, -1 per i geni inibiti o +1 per i geni attivati, a quei geni che vengono modulati allo stesso modo in almeno il 70% di tutti i campioni della CMap considerando le nove linee cellulari sotto lo stesso tipo di trattamento. Quindi, abbiamo confrontato questi geni con quelli modulati sia dalla trabectedina che dalla lurbinectedina in tutti i datasets in esame e abbiamo selezionato solo quelli presenti sia in questo set di dati che nel database CMap e che avessero anche lo stesso segno di regolazione. In questo modo abbiamo identificato 121 geni per irinotecano, 110 geni per teniposide, 106 geni per SN-38, 106 geni per mitomicina-c, 90 geni per YC-1 e infine 24 geni per importazole. Nel complesso, abbiamo identificato i geni che sono bersaglio sia della trabectedina / lurbinectedina sia di farmaci già noti, vale a dire che subiscono la stessa modulazione trascrizionale. Infine, per comprendere se i geni comuni identificati potessero essere coinvolti in specifiche reti biologiche, abbiamo eseguito un'analisi dei pathways. Questo approccio della biologia dei sistemi consente di estrarre un significato biologico da un elenco di geni e si basa sull'osservazione scientifica che i geni non sono indipendenti tra loro, ma interagiscono in una complessa rete di interazioni. A tal fine, abbiamo eseguito un'analisi di arricchimento che, attraverso la distribuzione ipergeometrica, consente l'identificazione dei pathways arricchiti. Come database di riferimento abbiamo utilizzato Reactome per le interazioni di segnale e Gene Ontology (GO) per i processi biologici. A questo scopo abbiamo analizzato in maniera indipendente i geni associati ad ogni farmaco. È interessante notare che per tutti i farmaci, ad eccezione dell'importazole, abbiamo identificato due principali categorie biologiche, quali la regolazione trascrizionale da parte di TP53 e la transizione di fase G2 / M del ciclo cellulare. Il pathway della regolazione trascrizionale da parte di TP53 è già stato descritto in letteratura come uno dei principali bersagli della trabectedina. In particolare, l'attivazione di questo pathway rappresenta uno dei primi eventi suscitati dal farmaco. Mentre il blocco nella transizione di fase G2 / M è descritto come l'evento principale nella regolazione del ciclo cellulare dovuto alla trabectedina. Alla luce di quanto sopra, abbiamo confermato quanto già noto in letteratura sull’effetto della trabectedina nei processi biologici di regolazione trascrizionale da parte di TP53 e nella transizione di fase G2 / M del ciclo cellulare, e abbiamo anche riscontrato lo stesso coinvolgimento per cinque dei sei farmaci scoperti. In particolare, tra i geni presenti nei pathways condivisi ci sono CDKN1A, CCNA2 e SFN, tutti coinvolti nel processo di regolazione del ciclo cellulare. CDKN1A, che è attivato, codifica la proteina p21 che controlla la progressione del ciclo cellulare a livello di checkpoint tra le fasi G1 e S; CCNA2, che è spento, codifica la proteina Cyclin-A2 che promuove la transizione attraverso le fasi G1 / S e G2 / M; mentre SNF, che è attivato, codifica la proteina stratifina che rappresenta un checkpoint del ciclo cellulare. In conclusione, abbiamo confermato i sinergismi già noti per la trabectedina con gli inibitori delle topoisomerasi, quali irinotecano, SN-38 e teniposide. Inoltre, in questo lavoro proponiamo nuove sinergie non ancora riportate in letteratura per trabectedina e lurbinectedina con YC-1, importazole e mitomicina-c. Questi tre farmaci, appartenenti a diverse classi farmacologiche, sono già stati testati per il trattamento di patologie tumorali, ma potrebbero quindi rivelarsi efficaci anche come trattamenti in combinazione. Il ricorso a terapie in cui si usano combinazioni di farmaci si rivela utile soprattutto in contrasto alla tossicità o alla resistenza acquisita. Trabectedina e lurbinectedina vengono generalmente somministrate a concentrazioni nanomolari, tuttavia altri farmaci sono efficaci a dosi più elevate. L'utilizzo di trattamenti combinatori permette di cambiare il dosaggio del farmaco, riducendo così gli effetti collaterali. Vale la pena notare che i sinergismi proposti devono essere letti ad effetto bidirezionale: alcuni possono rafforzare l'effetto della trabectedina, così come la trabectedina potrebbe aumentare l'effetto degli altri. Inoltre, la descrizione di tali sinergismi a livello di pathway funzionali ha mostrato che essi sono dovuti principalmente all’azione condivisa sia dalla trabectedina che dalla lurbinectedina e dai cinque farmaci proposti sul pathway della regolazione trascrizionale da parte di TP53 e sul controllo del ciclo cellulare. Il primo merito di questo lavoro va attribuito all'utilizzo di diversi modelli biologici, quali linee cellulari, xenotrapianti derivati da paziente e cellule del sangue. L'eterogeneità dei datasets ha aiutato ad identificare una signature per trabectedina / lurbinectedina che è indipendente dal tessuto analizzato. Quindi, oltre al già noto sinergismo con gli inibitori delle topoisomerasi, abbiamo identificato tre nuovi composti che possono essere potenzialmente utilizzati in sinergia con la trabectedina o il suo analogo. Inoltre, abbiamo definito un workflow di analisi applicato a dati sperimentali provenienti dalla tecnologia dei microarray ed il database di riferimento CMap che può essere replicato ad altri dataset per rispondere alle stesse domande farmacologiche. Infine, questo lavoro rappresenta un buon esempio di approccio bioinformatico ed ingegneristico sviluppato per rispondere ad un problema farmacologico, che si abbina perfettamente alla collaborazione tra il Politecnico di Milano e l'Istituto di Ricerche Farmacologiche Mario Negri. D’altro canto, abbiamo riscontrato anche alcuni limiti in questo lavoro: si sarebbero potuti utilizzare molti più datasets, preferibilmente da tessuti tumorali umani, tuttavia non vi era alcuna disponibilità nei database pubblici. Inoltre, gli approcci in silico necessitano generalmente di prove sperimentali per la validazione funzionale. Purtroppo, oltre ad essere fuori dallo scopo di questo progetto, questi esperimenti impiegano molto tempo e non è stato possibile testarli durante il lavoro di tesi. Quest’ ultimo punto rappresenta un possibile sviluppo futuro, insieme all'esplorazione di possibili sinergismi eseguiti sull'intero insieme di linee cellulari che non sono ancora presenti nel database CMap, ma per i quali sono disponibili dati nel database pubblico GEO.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
2020_04_Ravasio.pdf

non accessibile

Descrizione: Testo della tesi
Dimensione 3.11 MB
Formato Adobe PDF
3.11 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/154126