Computational drug repurposing offers a promising strategy to accelerate pharmaceutical development, but most existing methods either ignore biological context or risk evaluation biases that inflate performance. This thesis introduces a predictive pipeline for drug–gene interaction prediction that integrates chemical and biological knowledge in a unified framework. The method combines ChemBERTa-based drug embeddings with context-aware gene embeddings generated by metapath2vec, fused through an information-preserving strategy and processed by a dual-branch neural network. This design enables the model to transfer pathway and ontology information into the prediction space, moving beyond direct interaction memorization toward biologically grounded inference. To rigorously assess the method’s robustness, we evaluated it under three complementary leave-out scenarios—novel drugs, novel genes, and novel pairs—each reflecting real discovery challenges and deliberately constructed to avoid data leakage. Results show that the pipeline achieves strong predictive performance for novel compounds and in balanced datasets, while its advantage diminishes under severe class imbalance. These findings reveal both the potential and the boundaries of pathway-informed embeddings for drug discovery. This thesis contributes a novel, validated predictive method, establishes realistic performance benchmarks for its use in different operational workflows, and highlights how data balance and task design critically influence the utility of graph-based models in computational biology.
Il riposizionamento farmacologico computazionale offre una strategia promettente per accelerare lo sviluppo farmaceutico, ma la maggior parte dei metodi esistenti ignora il contesto biologico o rischia di introdurre bias di valutazione che ne sovrastimano le performance. Questa tesi introduce una pipeline predittiva per la previsione delle interazioni gene-farmaco che integra la conoscenza chimica e biologica in un framework unificato. Il metodo combina embedding di farmaci basati su ChemBERTa con embedding di geni context-aware generati da metapath2vec, fusi attraverso una strategia che preserva l’informazione ed elaborati da una rete neurale a due rami. Questo design permette al modello di trasferire l’informazione di pathway e ontologie nello spazio di predizione, superando la semplice memorizzazione delle interazioni dirette per favorire un’inferenza biologicamente fondata. Per valutare rigorosamente la robustezza del metodo, lo abbiamo testato in tre scenari complementari di tipo "leave-out" — farmaci nuovi, geni nuovi e coppie nuove — ciascuno dei quali riflette sfide reali nel campo della scoperta di farmaci ed è stato deliberatamente costruito per evitare la fuga di informazioni (data leakage). I risultati mostrano che la pipeline raggiunge elevate performance predittive per composti nuovi e in dataset bilanciati, mentre il suo vantaggio si riduce in condizioni di forte squilibrio tra le classi. Queste scoperte rivelano sia il potenziale sia i limiti degli embedding basati su percorsi biologici per la scoperta di farmaci. Questa tesi contribuisce con un nuovo metodo predittivo validato, stabilisce benchmark di performance realistici per il suo utilizzo in diversi flussi di lavoro operativi e mette in luce come il bilanciamento dei dati e il design del task influenzino in modo critico l’utilità dei modelli basati su grafo nella biologia computazionale.
Graph-based embeddings for gene-drug interaction prediction
SHAHIDIANI, SHAKIBA
2024/2025
Abstract
Computational drug repurposing offers a promising strategy to accelerate pharmaceutical development, but most existing methods either ignore biological context or risk evaluation biases that inflate performance. This thesis introduces a predictive pipeline for drug–gene interaction prediction that integrates chemical and biological knowledge in a unified framework. The method combines ChemBERTa-based drug embeddings with context-aware gene embeddings generated by metapath2vec, fused through an information-preserving strategy and processed by a dual-branch neural network. This design enables the model to transfer pathway and ontology information into the prediction space, moving beyond direct interaction memorization toward biologically grounded inference. To rigorously assess the method’s robustness, we evaluated it under three complementary leave-out scenarios—novel drugs, novel genes, and novel pairs—each reflecting real discovery challenges and deliberately constructed to avoid data leakage. Results show that the pipeline achieves strong predictive performance for novel compounds and in balanced datasets, while its advantage diminishes under severe class imbalance. These findings reveal both the potential and the boundaries of pathway-informed embeddings for drug discovery. This thesis contributes a novel, validated predictive method, establishes realistic performance benchmarks for its use in different operational workflows, and highlights how data balance and task design critically influence the utility of graph-based models in computational biology.| File | Dimensione | Formato | |
|---|---|---|---|
|
2025_10_Shahidiani_Executive Summary_02.pdf
accessibile in internet per tutti
Descrizione: Text of the Executive Summary
Dimensione
3.18 MB
Formato
Adobe PDF
|
3.18 MB | Adobe PDF | Visualizza/Apri |
|
2025_10_Shahidiani_Thesis_01.pdf
accessibile in internet per tutti
Descrizione: Text of the Thesis
Dimensione
6.89 MB
Formato
Adobe PDF
|
6.89 MB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/243748