Eukaryotic cells are complex biological systems in which complex phenomena take place, driven by molecular interactions. Mechanisms of cell regulation, differentiation and development derive from such complexity, and they can be explored through system biology, i.e., a common approach for studying molecular interactions involved in specific functions within a cell. Complex networks provide a generalizable method to represent object associations and to understand the overall structure of complex systems. More in detail, biological networks are computational models typically employed in system biology for representing functionalities and structure of molecular relationships. They have been used for the property of abstraction, since they can represent the system's components as nodes and connections between them as links. Network-based approaches allow a global vision of each node's contribution, providing insights that other methods based on single node analyses cannot give. Indeed, they are able to significantly improve our knowledge of biological systems and shed light on pathological disruptions occurring in the cell. Moreover, one of their main features is their ability to easily integrate data from various sources. During the last decade, massive efforts were made to build public databases of biological data; among them, next-generation sequencing (NGS) and drug-related data are the ones used for this project. Complex networks are the perfect paradigm to answer to several different biological questions using a vast amount of heterogeneous data due to their reductionist approach. This Thesis focuses on three main steps of network biology: network inference, link prediction and network feature extraction; for each of them it innovatively describes state-of-the-art computational methods and novel computational approaches applied to answer a specific key biological question in a considered case study, obtaining relevant results. My work offers a broad picture regarding what complex networks may accomplish in biology and contributes to delivering advances in this field. From the computational perspective, I developed novel approaches to build, predict and analyze complex networks, whereas, from a biological standpoint, the achieved results have a significant impact on the considered case studies. During my first year of PhD, I focused my work on identifying functional interaction networks among transcription factors (TF), i.e., proteins that control gene transcription by acting in complexes. Performing network inference to identify TF interaction networks is a notable task to understand the genome regulation framework and its changes when subjected to external stimuli. We developed an approach based on the computation of association rules and the definition of a novel Importance Index, which leads to the creation of TF interaction networks in user-selected genomic regions. The Importance Index provides a relevance measure of TF interactions; thus, inferred networks have TF as nodes and their relationships are weighted according to the Importance Index between them. To explore the link prediction problem in network biology, I focused on an original drug repurposing approach by designing a drug-centred network and by leveraging the Non-negative Matrix Tri-Factorization (NMTF) method to obtain drug-centric predictions. Computational drug repurposing proposes alternative indications for already in use drugs, bypassing the highly expensive and lengthy drug discovery process. Thus, we answered to a crucial biological question by modelling drugs, their protein targets, diseases and biological pathways as nodes of a multilayered network in which we predicted links between drugs and other nodes. We innovatively combined the NMTF method with a shortest-path-based evaluation of drug-protein pairs that takes advantage of the protein-to-protein interaction network, increasing the correctness of our link predictions and the pool of possible protein targets. During the last period of my PhD, I worked on network feature extraction by providing a general framework to infer relevant genes from multiple gene co-expression networks. Thus, I investigated a famous network biology problem by focusing on a specific application: identifying cancer-related genes to be experimentally validated. The hallmark of this work is the use of a combination of gene co-expression networks based on different similarity measures for the normal and cancer condition individually, and the subsequent fusion of two condition networks. Fused networks are disease-specific; thus, the extracted gene communities represent important features of the disease-specific networks. This manuscript is organized as follows: Chapter 1 introduces the topic of this Thesis; Chapter 2 presents motivations and goals for applying complex network computational techniques in biology; Chapter 3 provides the background needed to understand the considered biological case studies; Chapter 4 describes data and general methods adopted in this work; Chapter 5, Chapter 6 and Chapter 7 consider three real-world case studies of relevant biological interest and respectively apply network inference, link prediction and network feature extraction, to computationally evaluate them, obtaining both methodological and biologically relevant results; Chapter 8 concludes the Thesis with discussions and future developments.

Le cellule eucariotiche sono sistemi biologici complessi in cui si verificano fenomeni complessi, guidati da interazioni molecolari. I meccanismi di regolazione, differenziazione e sviluppo delle cellule derivano da tale complessità e possono essere esplorati attraverso la biologia dei sistemi, ovvero un approccio comune per lo studio delle interazioni molecolari coinvolte in funzioni specifiche all'interno di una cellula. Le reti complesse forniscono un metodo generalizzabile per rappresentare associazioni di oggetti e per comprendere la struttura complessiva di sistemi complessi. Più in dettaglio, le reti biologiche sono modelli computazionali tipicamente impiegati nella biologia dei sistemi per rappresentare le funzionalità e la struttura delle relazioni molecolari. Sono stati usati per la proprietà di astrazione, poiché possono rappresentare i componenti del sistema come nodi e le connessioni tra loro come collegamenti. Gli approcci basati sulla rete consentono una visione globale del contributo di ciascun nodo, fornendo intuizioni che altri metodi basati sull'analisi di un singolo nodo non possono fornire. In effetti, sono in grado di migliorare in modo significativo la nostra conoscenza dei sistemi biologici e di far luce sulle interruzioni patologiche che si verificano nella cellula. Inoltre, una delle loro caratteristiche principali è la loro capacità di integrare facilmente i dati da varie fonti. Durante l'ultimo decennio, sono stati compiuti enormi sforzi per costruire database pubblici di dati biologici; tra questi, i dati di sequenziamento di nuova generazione (NGS) e quelli relativi ai farmaci sono utilizzati per questo progetto. Le reti complesse sono il paradigma perfetto per rispondere a diverse domande biologiche diverse utilizzando una grande quantità di dati eterogenei grazie al loro approccio riduzionista. Questa tesi si concentra su tre fasi principali della biologia di rete: inferenza di rete, previsione di collegamento ed estrazione di caratteristiche di rete; per ciascuno di essi descrive in modo innovativo metodi computazionali all'avanguardia e nuovi approcci computazionali applicati per rispondere a una domanda biologica chiave specifica in un caso di studio considerato, ottenendo risultati rilevanti. Il mio lavoro offre un quadro ampio di ciò che le reti complesse possono realizzare in biologia e contribuisce a fornire progressi in questo campo. Dal punto di vista computazionale, ho sviluppato nuovi approcci per costruire, prevedere e analizzare reti complesse, mentre, da un punto di vista biologico, i risultati ottenuti hanno un impatto significativo sui casi di studio considerati. Durante il primo anno di dottorato, ho concentrato il mio lavoro sull'identificazione di reti di interazione funzionale tra fattori di trascrizione (TF), cioè proteine che controllano la trascrizione genica agendo in complessi. Eseguire l'inferenza di rete per identificare le reti di interazione TF è un compito notevole per comprendere il quadro di regolazione del genoma e i suoi cambiamenti quando sottoposti a stimoli esterni. Abbiamo sviluppato un approccio basato sul calcolo delle regole di associazione e la definizione di un nuovo indice di importanza, che porta alla creazione di reti di interazione TF in regioni genomiche selezionate dall'utente. L'indice di importanza fornisce una misura di rilevanza delle interazioni TF; quindi, le reti dedotte hanno TF come nodi e le loro relazioni sono ponderate in base all'indice di importanza tra di loro. Per esplorare il problema della previsione del collegamento nella biologia delle reti, mi sono concentrata su un approccio originale di riproposizione dei farmaci progettando una rete centrata sul farmaco e sfruttando il metodo della tri-fattorizzazione (NMTF) per ottenere previsioni incentrate sul farmaco. La riproposizione computazionale dei farmaci propone indicazioni alternative per i farmaci già in uso, aggirando il processo di scoperta dei farmaci molto costoso e lungo. Pertanto, abbiamo risposto a una domanda biologica cruciale modellando i farmaci, i loro bersagli proteici, le malattie e i percorsi biologici come nodi di una rete multistrato in cui prevedevamo i collegamenti tra farmaci e altri nodi. Abbiamo combinato in modo innovativo il metodo NMTF con una valutazione basata sul percorso più breve delle coppie farmaco-proteina che sfrutta la rete di interazione proteina-proteina, aumentando la correttezza delle nostre previsioni di collegamento e il pool di possibili bersagli proteici. Durante l'ultimo periodo del mio dottorato di ricerca, ho lavorato all'estrazione di caratteristiche di rete fornendo un quadro generale per dedurre geni rilevanti da più reti di co-espressione genica. Pertanto, ho studiato un famoso problema di biologia della rete concentrandomi su un'applicazione specifica: l'identificazione di geni correlati al cancro da convalidare sperimentalmente. Il segno distintivo di questo lavoro è l'uso di una combinazione di reti di co-espressione genica basate su diverse misure di somiglianza per la condizione normale e cancerosa individualmente, e la successiva fusione di due reti di condizione. Le reti fuse sono specifiche della malattia; quindi, le comunità geniche estratte rappresentano caratteristiche importanti delle reti specifiche della malattia. Questo manoscritto è organizzato come segue: Il capitolo 1 introduce l'argomento di questa Tesi; Il capitolo 2 presenta le motivazioni e gli obiettivi per l'applicazione di complesse tecniche di calcolo di rete in biologia; Il capitolo 3 fornisce il background necessario per comprendere i casi di studio biologici considerati; Il capitolo 4 descrive i dati e i metodi generali adottati in questo lavoro; Il capitolo 5, il capitolo 6 e il capitolo 7 considerano tre casi di studio del mondo reale di rilevante interesse biologico e applicano rispettivamente inferenza di rete, previsione di collegamento ed estrazione di caratteristiche di rete, per valutarli computazionalmente, ottenendo risultati sia metodologici che biologicamente rilevanti; Il capitolo 8 conclude la tesi con discussioni e sviluppi futuri.

Computational methods for data-driven predictions and understanding of biological interactions

CEDDIA, GAIA
2020/2021

Abstract

Eukaryotic cells are complex biological systems in which complex phenomena take place, driven by molecular interactions. Mechanisms of cell regulation, differentiation and development derive from such complexity, and they can be explored through system biology, i.e., a common approach for studying molecular interactions involved in specific functions within a cell. Complex networks provide a generalizable method to represent object associations and to understand the overall structure of complex systems. More in detail, biological networks are computational models typically employed in system biology for representing functionalities and structure of molecular relationships. They have been used for the property of abstraction, since they can represent the system's components as nodes and connections between them as links. Network-based approaches allow a global vision of each node's contribution, providing insights that other methods based on single node analyses cannot give. Indeed, they are able to significantly improve our knowledge of biological systems and shed light on pathological disruptions occurring in the cell. Moreover, one of their main features is their ability to easily integrate data from various sources. During the last decade, massive efforts were made to build public databases of biological data; among them, next-generation sequencing (NGS) and drug-related data are the ones used for this project. Complex networks are the perfect paradigm to answer to several different biological questions using a vast amount of heterogeneous data due to their reductionist approach. This Thesis focuses on three main steps of network biology: network inference, link prediction and network feature extraction; for each of them it innovatively describes state-of-the-art computational methods and novel computational approaches applied to answer a specific key biological question in a considered case study, obtaining relevant results. My work offers a broad picture regarding what complex networks may accomplish in biology and contributes to delivering advances in this field. From the computational perspective, I developed novel approaches to build, predict and analyze complex networks, whereas, from a biological standpoint, the achieved results have a significant impact on the considered case studies. During my first year of PhD, I focused my work on identifying functional interaction networks among transcription factors (TF), i.e., proteins that control gene transcription by acting in complexes. Performing network inference to identify TF interaction networks is a notable task to understand the genome regulation framework and its changes when subjected to external stimuli. We developed an approach based on the computation of association rules and the definition of a novel Importance Index, which leads to the creation of TF interaction networks in user-selected genomic regions. The Importance Index provides a relevance measure of TF interactions; thus, inferred networks have TF as nodes and their relationships are weighted according to the Importance Index between them. To explore the link prediction problem in network biology, I focused on an original drug repurposing approach by designing a drug-centred network and by leveraging the Non-negative Matrix Tri-Factorization (NMTF) method to obtain drug-centric predictions. Computational drug repurposing proposes alternative indications for already in use drugs, bypassing the highly expensive and lengthy drug discovery process. Thus, we answered to a crucial biological question by modelling drugs, their protein targets, diseases and biological pathways as nodes of a multilayered network in which we predicted links between drugs and other nodes. We innovatively combined the NMTF method with a shortest-path-based evaluation of drug-protein pairs that takes advantage of the protein-to-protein interaction network, increasing the correctness of our link predictions and the pool of possible protein targets. During the last period of my PhD, I worked on network feature extraction by providing a general framework to infer relevant genes from multiple gene co-expression networks. Thus, I investigated a famous network biology problem by focusing on a specific application: identifying cancer-related genes to be experimentally validated. The hallmark of this work is the use of a combination of gene co-expression networks based on different similarity measures for the normal and cancer condition individually, and the subsequent fusion of two condition networks. Fused networks are disease-specific; thus, the extracted gene communities represent important features of the disease-specific networks. This manuscript is organized as follows: Chapter 1 introduces the topic of this Thesis; Chapter 2 presents motivations and goals for applying complex network computational techniques in biology; Chapter 3 provides the background needed to understand the considered biological case studies; Chapter 4 describes data and general methods adopted in this work; Chapter 5, Chapter 6 and Chapter 7 consider three real-world case studies of relevant biological interest and respectively apply network inference, link prediction and network feature extraction, to computationally evaluate them, obtaining both methodological and biologically relevant results; Chapter 8 concludes the Thesis with discussions and future developments.
PERNICI, BARBARA
TANCA, LETIZIA
18-gen-2021
Le cellule eucariotiche sono sistemi biologici complessi in cui si verificano fenomeni complessi, guidati da interazioni molecolari. I meccanismi di regolazione, differenziazione e sviluppo delle cellule derivano da tale complessità e possono essere esplorati attraverso la biologia dei sistemi, ovvero un approccio comune per lo studio delle interazioni molecolari coinvolte in funzioni specifiche all'interno di una cellula. Le reti complesse forniscono un metodo generalizzabile per rappresentare associazioni di oggetti e per comprendere la struttura complessiva di sistemi complessi. Più in dettaglio, le reti biologiche sono modelli computazionali tipicamente impiegati nella biologia dei sistemi per rappresentare le funzionalità e la struttura delle relazioni molecolari. Sono stati usati per la proprietà di astrazione, poiché possono rappresentare i componenti del sistema come nodi e le connessioni tra loro come collegamenti. Gli approcci basati sulla rete consentono una visione globale del contributo di ciascun nodo, fornendo intuizioni che altri metodi basati sull'analisi di un singolo nodo non possono fornire. In effetti, sono in grado di migliorare in modo significativo la nostra conoscenza dei sistemi biologici e di far luce sulle interruzioni patologiche che si verificano nella cellula. Inoltre, una delle loro caratteristiche principali è la loro capacità di integrare facilmente i dati da varie fonti. Durante l'ultimo decennio, sono stati compiuti enormi sforzi per costruire database pubblici di dati biologici; tra questi, i dati di sequenziamento di nuova generazione (NGS) e quelli relativi ai farmaci sono utilizzati per questo progetto. Le reti complesse sono il paradigma perfetto per rispondere a diverse domande biologiche diverse utilizzando una grande quantità di dati eterogenei grazie al loro approccio riduzionista. Questa tesi si concentra su tre fasi principali della biologia di rete: inferenza di rete, previsione di collegamento ed estrazione di caratteristiche di rete; per ciascuno di essi descrive in modo innovativo metodi computazionali all'avanguardia e nuovi approcci computazionali applicati per rispondere a una domanda biologica chiave specifica in un caso di studio considerato, ottenendo risultati rilevanti. Il mio lavoro offre un quadro ampio di ciò che le reti complesse possono realizzare in biologia e contribuisce a fornire progressi in questo campo. Dal punto di vista computazionale, ho sviluppato nuovi approcci per costruire, prevedere e analizzare reti complesse, mentre, da un punto di vista biologico, i risultati ottenuti hanno un impatto significativo sui casi di studio considerati. Durante il primo anno di dottorato, ho concentrato il mio lavoro sull'identificazione di reti di interazione funzionale tra fattori di trascrizione (TF), cioè proteine che controllano la trascrizione genica agendo in complessi. Eseguire l'inferenza di rete per identificare le reti di interazione TF è un compito notevole per comprendere il quadro di regolazione del genoma e i suoi cambiamenti quando sottoposti a stimoli esterni. Abbiamo sviluppato un approccio basato sul calcolo delle regole di associazione e la definizione di un nuovo indice di importanza, che porta alla creazione di reti di interazione TF in regioni genomiche selezionate dall'utente. L'indice di importanza fornisce una misura di rilevanza delle interazioni TF; quindi, le reti dedotte hanno TF come nodi e le loro relazioni sono ponderate in base all'indice di importanza tra di loro. Per esplorare il problema della previsione del collegamento nella biologia delle reti, mi sono concentrata su un approccio originale di riproposizione dei farmaci progettando una rete centrata sul farmaco e sfruttando il metodo della tri-fattorizzazione (NMTF) per ottenere previsioni incentrate sul farmaco. La riproposizione computazionale dei farmaci propone indicazioni alternative per i farmaci già in uso, aggirando il processo di scoperta dei farmaci molto costoso e lungo. Pertanto, abbiamo risposto a una domanda biologica cruciale modellando i farmaci, i loro bersagli proteici, le malattie e i percorsi biologici come nodi di una rete multistrato in cui prevedevamo i collegamenti tra farmaci e altri nodi. Abbiamo combinato in modo innovativo il metodo NMTF con una valutazione basata sul percorso più breve delle coppie farmaco-proteina che sfrutta la rete di interazione proteina-proteina, aumentando la correttezza delle nostre previsioni di collegamento e il pool di possibili bersagli proteici. Durante l'ultimo periodo del mio dottorato di ricerca, ho lavorato all'estrazione di caratteristiche di rete fornendo un quadro generale per dedurre geni rilevanti da più reti di co-espressione genica. Pertanto, ho studiato un famoso problema di biologia della rete concentrandomi su un'applicazione specifica: l'identificazione di geni correlati al cancro da convalidare sperimentalmente. Il segno distintivo di questo lavoro è l'uso di una combinazione di reti di co-espressione genica basate su diverse misure di somiglianza per la condizione normale e cancerosa individualmente, e la successiva fusione di due reti di condizione. Le reti fuse sono specifiche della malattia; quindi, le comunità geniche estratte rappresentano caratteristiche importanti delle reti specifiche della malattia. Questo manoscritto è organizzato come segue: Il capitolo 1 introduce l'argomento di questa Tesi; Il capitolo 2 presenta le motivazioni e gli obiettivi per l'applicazione di complesse tecniche di calcolo di rete in biologia; Il capitolo 3 fornisce il background necessario per comprendere i casi di studio biologici considerati; Il capitolo 4 descrive i dati e i metodi generali adottati in questo lavoro; Il capitolo 5, il capitolo 6 e il capitolo 7 considerano tre casi di studio del mondo reale di rilevante interesse biologico e applicano rispettivamente inferenza di rete, previsione di collegamento ed estrazione di caratteristiche di rete, per valutarli computazionalmente, ottenendo risultati sia metodologici che biologicamente rilevanti; Il capitolo 8 conclude la tesi con discussioni e sviluppi futuri.
File allegati
File Dimensione Formato  
PhD_Thesis_GaiaCeddia.pdf

accessibile in internet solo dagli utenti autorizzati

Dimensione 10.04 MB
Formato Adobe PDF
10.04 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/177064