Deep learning models have found extensive application in computational biology, particularly in cancer-related studies, due to their ability to handle high-dimensional data and learn complex genomic-phenotypic relationships. Despite this, their effectiveness is often limited by the scarcity and quality of omics data, which is impacted by the time-consuming and expensive nature of experimental methods, as well as inherent biases in measurement due to different technologies and protocols and privacy problems due to human-identifiable information. Generative AI models, especially Deep Learning-based ones, offer a potential solution. However, they do not incorporate essential biological knowledge, crucial for preserving key properties among biological entities, such as genes and proteins. The core challenge is to generate data samples that not only reflect the statistical properties of the real datasets but also their biological properties, ensuring applicability in real-world scenarios. In this work, we propose a conditional Wasserstein Generative Adversarial Network with gradient penalty that incorporates Graph Neural Networks using message-passing layers to generate realistic gene expression profiles. Our model uniquely leverages prior biological knowledge in the form of biological networks, derived from gene regulatory networks and gene co-expression networks, to guide the data generation process, potentially ensuring that the synthetic data could be both statistically realistic and biologically plausible. We speculate that a graph-based approach could not only enhance the quality of generated data, but also uncover unknown feature relationships. Our tests demonstrated the effectiveness of our model in incorporating prior biological knowledge to generate in-silico gene expression profiles for E. coli and humans.

I modelli di Deep Learning hanno trovato ampia applicazione nella biologia computazionale, in particolare nella ricerca oncologica, grazie alla loro capacità di analizzare dati complessi ed apprendere relazioni genomico-fenotipiche. Tuttavia, l’efficacia di questi approcci è spesso limitata dalla scarsa disponibilità di dati omici di qualità. Questa carenza è determinata da diversi fattori: i costi elevati e la lunga durata della raccolta di dati, le variazioni nelle misurazioni legate a tecnologie e protocolli differenti e le restrizioni imposte dalla privacy sui dati genetici umani. L’intelligenza artificiale generativa, e in particolare i modelli di Deep Learning generativo, rappresentano una possibile soluzione a queste limitazioni, consentendo la creazione di dati sintetici. Tuttavia, i modelli esistenti non integrano le conoscenze biologiche nel processo di generazione, compromettendo la corretta rappresentazione delle relazioni fondamentali tra entità biologiche, quali geni e proteine. La sfida principale consiste quindi nello sviluppo di modelli capaci di generare dati sintetici che siano biologicamente significativi e idonei all’impiego nella ricerca scientifica. In questo lavoro, presentiamo un nuovo modello generativo basato su Generative Adversarial Network e Reti Neurali a Grafo per la generazione di profili realistici di espressione genica. L’innovazione principale del nostro approccio risiede nell’integrazione di conoscenze biologiche preesistenti, codificate attraverso reti di regolazione genica e reti di co-espressione, nel processo di generazione dei dati. La nostra ipotesi è che un approccio basato su grafi possa non solo migliorare la qualità dei dati sintetici, ma anche rivelare nuove relazioni biologiche inesplorate. I test condotti su dati di E. coli e sui profili umani del dataset GTEx hanno confermato l’efficacia del modello proposto. I modelli con generatore a grafo mostrano prestazioni superiori nella generazione di profili di espressione genica rispetto ai modelli consolidati dello stato dell’arte, secondo numerose metriche di validazione.

Generative AI for gene expression: a biologically informed graph neural network approach

Panaccione, Francesca Pia
2023/2024

Abstract

Deep learning models have found extensive application in computational biology, particularly in cancer-related studies, due to their ability to handle high-dimensional data and learn complex genomic-phenotypic relationships. Despite this, their effectiveness is often limited by the scarcity and quality of omics data, which is impacted by the time-consuming and expensive nature of experimental methods, as well as inherent biases in measurement due to different technologies and protocols and privacy problems due to human-identifiable information. Generative AI models, especially Deep Learning-based ones, offer a potential solution. However, they do not incorporate essential biological knowledge, crucial for preserving key properties among biological entities, such as genes and proteins. The core challenge is to generate data samples that not only reflect the statistical properties of the real datasets but also their biological properties, ensuring applicability in real-world scenarios. In this work, we propose a conditional Wasserstein Generative Adversarial Network with gradient penalty that incorporates Graph Neural Networks using message-passing layers to generate realistic gene expression profiles. Our model uniquely leverages prior biological knowledge in the form of biological networks, derived from gene regulatory networks and gene co-expression networks, to guide the data generation process, potentially ensuring that the synthetic data could be both statistically realistic and biologically plausible. We speculate that a graph-based approach could not only enhance the quality of generated data, but also uncover unknown feature relationships. Our tests demonstrated the effectiveness of our model in incorporating prior biological knowledge to generate in-silico gene expression profiles for E. coli and humans.
MASSEROLI, MARCO
MONGARDI, SOFIA
ING - Scuola di Ingegneria Industriale e dell'Informazione
11-dic-2024
2023/2024
I modelli di Deep Learning hanno trovato ampia applicazione nella biologia computazionale, in particolare nella ricerca oncologica, grazie alla loro capacità di analizzare dati complessi ed apprendere relazioni genomico-fenotipiche. Tuttavia, l’efficacia di questi approcci è spesso limitata dalla scarsa disponibilità di dati omici di qualità. Questa carenza è determinata da diversi fattori: i costi elevati e la lunga durata della raccolta di dati, le variazioni nelle misurazioni legate a tecnologie e protocolli differenti e le restrizioni imposte dalla privacy sui dati genetici umani. L’intelligenza artificiale generativa, e in particolare i modelli di Deep Learning generativo, rappresentano una possibile soluzione a queste limitazioni, consentendo la creazione di dati sintetici. Tuttavia, i modelli esistenti non integrano le conoscenze biologiche nel processo di generazione, compromettendo la corretta rappresentazione delle relazioni fondamentali tra entità biologiche, quali geni e proteine. La sfida principale consiste quindi nello sviluppo di modelli capaci di generare dati sintetici che siano biologicamente significativi e idonei all’impiego nella ricerca scientifica. In questo lavoro, presentiamo un nuovo modello generativo basato su Generative Adversarial Network e Reti Neurali a Grafo per la generazione di profili realistici di espressione genica. L’innovazione principale del nostro approccio risiede nell’integrazione di conoscenze biologiche preesistenti, codificate attraverso reti di regolazione genica e reti di co-espressione, nel processo di generazione dei dati. La nostra ipotesi è che un approccio basato su grafi possa non solo migliorare la qualità dei dati sintetici, ma anche rivelare nuove relazioni biologiche inesplorate. I test condotti su dati di E. coli e sui profili umani del dataset GTEx hanno confermato l’efficacia del modello proposto. I modelli con generatore a grafo mostrano prestazioni superiori nella generazione di profili di espressione genica rispetto ai modelli consolidati dello stato dell’arte, secondo numerose metriche di validazione.
File allegati
File Dimensione Formato  
2024_12_Panaccione_Executive Summary.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Testo Executive Summary
Dimensione 1.37 MB
Formato Adobe PDF
1.37 MB Adobe PDF   Visualizza/Apri
2024_12_Panaccione_Tesi.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Testo Tesi
Dimensione 3.28 MB
Formato Adobe PDF
3.28 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/230265