Nowadays is essential to able to respond to a new spreading disease in a brief time. For this reason, a conventional approach is not responsive enough. Drug Repurposing is the investigation of existing drugs on the pharmaceutical market for new therapeutic purposes; drug repurposing reduces the time and cost of clinical trial steps, saving years, and billions of dollars in Research and Development (R&D) and can be also used to find a treatment for a rare disease that could have not a market for the high cost of R&D. In such a way drug repurposing represents a solution to a disease in a shorter time. Identifying new diseases on which a drug can be effective is a complex problem: our approach leverages Knowledge Graph (KG), networks composed of many types of entities and relations, on which embedding and graph completion techniques can be applied to infer insights and analyses. Our KG is built from well- known databases such as DrugBank, UniProt, and CTD and contains over one million relationships between more than 70K biological and pharmaceutical entities like diseases, genes, proteins, and drugs. In this work, we research the applicability of knowledge graph completion techniques, such as link prediction (and triple classification) using a various number of different embedding models from different families: matrix factorization, geometric and Deep learning. Using these models is possible to infer new drug-disease relationships on our KG, and identify novel drug repurposing candidates. Results are encouraging and show how state-of-the-art machine learning models, combined with the ever-growing amount of biological data freely available to the research community, could significantly improve the field of drug repurposing. In our evaluation is used H@10, that is the proportion of true triples respect to the top 10 predictions of the embedding model, as a measurement of accuracy. A score of H@10 around 0.5 means that the model is learning information from the dataset and it has significantly improved a random baseline based on guessing that achieves less than 0.002 on the same measure. In addition to this result, using more complex embedding models and more data improves the quality of results. Achieving a score of 0.5 is a good result due to the complexity of the problem. It should be underlined that these techniques can produce these result, from the generation of the knowledge graph to the prediction, in just a few hours, and, for this reason, is capable of reducing the dimensional complexity of the problem in a very short time since the deep inspect of potential candidates for a disease can start from a small subset. Finally, can be observed that starting from the generation of the network from biological expertise, and, using machine learning techniques, the model generates a piece of new biological knowledge, not only in the specific case of drug-disease links but provides a better understanding of the interactions and their importance between all the entities and relationships that are present in our knowledge graph.

Oggigiorno è fondamentale poter saper rispondere in breve tempo a una nuova malattia che si diffonde. Per questo motivo, un approccio convenzionale non è sufficientemente reattivo. Drug Repurposing è lo studio di farmaci esistenti sul mercato farmaceutico per nuovi scopi terapeutici; il riutilizzo dei farmaci riduce i tempi e i costi delle fasi della sperimentazione clinica, risparmiando anni e miliardi di dollari in Research and Development (R&D) e può essere utilizzato anche per trovare una cura per una malattia rara che potrebbe non avere un mercato per l’alto costo di R&D. In tal modo la riconversione di farmaci rappresenta una soluzione a una malattia in breve tempo. Identificare nuove malattie su cui un farmaco può essere efficace è un problema complesso: il nostro approccio fa leva su Knowledge Graph (KG), è un network composto da molti tipi di entità e relazioni, su cui è possibile applicare tecniche di embedding e completamento di grafi per dedurre nuovi collegamenti e per analisi. Il nostro KG è costruito partendo da informazioni contenute in database ben noti come DrugBank, UniProt e CTD e contiene oltre un milione di relazioni tra più di 70,000 entità bio- logiche e farmaceutiche come malattie, geni, proteine e farmaci. In questo lavoro, ricerchiamo l’applicabilità delle tecniche di completamento del knowledge graph, come la previsione di un nuovo collegamento, link prediction (e la triple classification), utilizzando diversi modelli di embedding provenienti da famiglie differenti: fattorizzazione della matrice, geometrica e deep learning. Utilizzando questi modelli è possibile dedurre nuove relazioni farmaco-malattia sul nostro KG ed identificare nuovi candidati per il drug repurposing. I risultati sono incoraggianti e mostrano come i modelli di embedding siano all’avanguardia, che, combinati con la quantità sempre crescente di dati biomedici liberamente disponibili per la comunità di ricerca, potrebbero migliorare in modo significativo il campo del drug repurposing. Per poter valutare la precisione di queste predizioni, viene utilizzato H@10, ovvero la proporzione di triple vere rispetto alle prime 10 previsioni del modello di embedding. Un punteggio di H@10 intorno a 0,5 significa che il modello sta apprendendo informazioni dal set di dati e ha migliorato significativamente una baseline basata sulla predizione casuale di un collegamento che raggiunge meno di 0,002 sulla stessa misura. Oltre a questo risultato, l’utilizzo di modelli di embedding più complessi ed il maggior numnero di dati migliora la qualità dei risultati. Raggiungendo un punteggio di 0,5 è un buon risultato considerando la complessità del problema. Va sottolineato che questo approccio è in grado di produrre questi risultati, dalla generazione del knowledge graph alla predizione, in poche ore, e, per questo motivo, è in grado di ridurre la complessità dimensionale del problema in tempi brevissimi, riducendo il numero dei potenziali candidati per una malattia da cui può successivamente iniziare uno studio più approfondito. Infine, si può osservare che, a partire dalla generazione della rete costituita di conoscenze biologiche e, utilizzando tecniche di machine learning, il modello genera una nuova conoscenza biologica, non solo nel caso specifico dei legami farmaco-malattia ma fornisce una migliore comprensione delle interazioni e della loro importanza tra tutte le entità e le relazioni che sono presenti nel nostro knowledge graph.

Knowledge graph embedding for drug repurposing

RAMALLI, EDOARDO
2019/2020

Abstract

Nowadays is essential to able to respond to a new spreading disease in a brief time. For this reason, a conventional approach is not responsive enough. Drug Repurposing is the investigation of existing drugs on the pharmaceutical market for new therapeutic purposes; drug repurposing reduces the time and cost of clinical trial steps, saving years, and billions of dollars in Research and Development (R&D) and can be also used to find a treatment for a rare disease that could have not a market for the high cost of R&D. In such a way drug repurposing represents a solution to a disease in a shorter time. Identifying new diseases on which a drug can be effective is a complex problem: our approach leverages Knowledge Graph (KG), networks composed of many types of entities and relations, on which embedding and graph completion techniques can be applied to infer insights and analyses. Our KG is built from well- known databases such as DrugBank, UniProt, and CTD and contains over one million relationships between more than 70K biological and pharmaceutical entities like diseases, genes, proteins, and drugs. In this work, we research the applicability of knowledge graph completion techniques, such as link prediction (and triple classification) using a various number of different embedding models from different families: matrix factorization, geometric and Deep learning. Using these models is possible to infer new drug-disease relationships on our KG, and identify novel drug repurposing candidates. Results are encouraging and show how state-of-the-art machine learning models, combined with the ever-growing amount of biological data freely available to the research community, could significantly improve the field of drug repurposing. In our evaluation is used H@10, that is the proportion of true triples respect to the top 10 predictions of the embedding model, as a measurement of accuracy. A score of H@10 around 0.5 means that the model is learning information from the dataset and it has significantly improved a random baseline based on guessing that achieves less than 0.002 on the same measure. In addition to this result, using more complex embedding models and more data improves the quality of results. Achieving a score of 0.5 is a good result due to the complexity of the problem. It should be underlined that these techniques can produce these result, from the generation of the knowledge graph to the prediction, in just a few hours, and, for this reason, is capable of reducing the dimensional complexity of the problem in a very short time since the deep inspect of potential candidates for a disease can start from a small subset. Finally, can be observed that starting from the generation of the network from biological expertise, and, using machine learning techniques, the model generates a piece of new biological knowledge, not only in the specific case of drug-disease links but provides a better understanding of the interactions and their importance between all the entities and relationships that are present in our knowledge graph.
PARRAVICINI, ALBERTO
ING - Scuola di Ingegneria Industriale e dell'Informazione
2-ott-2020
2019/2020
Oggigiorno è fondamentale poter saper rispondere in breve tempo a una nuova malattia che si diffonde. Per questo motivo, un approccio convenzionale non è sufficientemente reattivo. Drug Repurposing è lo studio di farmaci esistenti sul mercato farmaceutico per nuovi scopi terapeutici; il riutilizzo dei farmaci riduce i tempi e i costi delle fasi della sperimentazione clinica, risparmiando anni e miliardi di dollari in Research and Development (R&D) e può essere utilizzato anche per trovare una cura per una malattia rara che potrebbe non avere un mercato per l’alto costo di R&D. In tal modo la riconversione di farmaci rappresenta una soluzione a una malattia in breve tempo. Identificare nuove malattie su cui un farmaco può essere efficace è un problema complesso: il nostro approccio fa leva su Knowledge Graph (KG), è un network composto da molti tipi di entità e relazioni, su cui è possibile applicare tecniche di embedding e completamento di grafi per dedurre nuovi collegamenti e per analisi. Il nostro KG è costruito partendo da informazioni contenute in database ben noti come DrugBank, UniProt e CTD e contiene oltre un milione di relazioni tra più di 70,000 entità bio- logiche e farmaceutiche come malattie, geni, proteine e farmaci. In questo lavoro, ricerchiamo l’applicabilità delle tecniche di completamento del knowledge graph, come la previsione di un nuovo collegamento, link prediction (e la triple classification), utilizzando diversi modelli di embedding provenienti da famiglie differenti: fattorizzazione della matrice, geometrica e deep learning. Utilizzando questi modelli è possibile dedurre nuove relazioni farmaco-malattia sul nostro KG ed identificare nuovi candidati per il drug repurposing. I risultati sono incoraggianti e mostrano come i modelli di embedding siano all’avanguardia, che, combinati con la quantità sempre crescente di dati biomedici liberamente disponibili per la comunità di ricerca, potrebbero migliorare in modo significativo il campo del drug repurposing. Per poter valutare la precisione di queste predizioni, viene utilizzato H@10, ovvero la proporzione di triple vere rispetto alle prime 10 previsioni del modello di embedding. Un punteggio di H@10 intorno a 0,5 significa che il modello sta apprendendo informazioni dal set di dati e ha migliorato significativamente una baseline basata sulla predizione casuale di un collegamento che raggiunge meno di 0,002 sulla stessa misura. Oltre a questo risultato, l’utilizzo di modelli di embedding più complessi ed il maggior numnero di dati migliora la qualità dei risultati. Raggiungendo un punteggio di 0,5 è un buon risultato considerando la complessità del problema. Va sottolineato che questo approccio è in grado di produrre questi risultati, dalla generazione del knowledge graph alla predizione, in poche ore, e, per questo motivo, è in grado di ridurre la complessità dimensionale del problema in tempi brevissimi, riducendo il numero dei potenziali candidati per una malattia da cui può successivamente iniziare uno studio più approfondito. Infine, si può osservare che, a partire dalla generazione della rete costituita di conoscenze biologiche e, utilizzando tecniche di machine learning, il modello genera una nuova conoscenza biologica, non solo nel caso specifico dei legami farmaco-malattia ma fornisce una migliore comprensione delle interazioni e della loro importanza tra tutte le entità e le relazioni che sono presenti nel nostro knowledge graph.
File allegati
File Dimensione Formato  
thesis.pdf

accessibile in internet per tutti

Descrizione: Thesis
Dimensione 3.22 MB
Formato Adobe PDF
3.22 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/166574