Therapeutic targets identification in oncology remains a major clinical challenge. Drug discovery takes on average fifteen years and two billion euros to be completed, and only nine clinical drug-candidate over ten programs are successful. The use of deep learning models increases the relevance of the therapeutic target identification. However, this can lead to the optimization of the drug development process at the condition of being interpretable by the researchers that will work on those targets. In this work, we have designed and implemented two deep neural networks architectures that are constrained by biological knowledge to enhance interpretability while maintaining good performance. The objective is to discover therapeutic targets and biological processes dysregulated in pancreatic ductal adenocarcinoma (PDAC). We demonstrate that our architectures constrained by gene ontology knowledge, combined with gradient-based attribution algorithms, achieve accuracies as good as black box models accuracies while providing interpretability, leading to explainable therapeutic targets identification. These models are trained using patient single cells RNA-seq data. Computational validation using gene set enrichment analysis as well as manual literature mining, reveal that the targets DEFB1, TFF1 and FXYD3 identified by our algorithm, are the most important to discriminate between tumoral and normal cells for PDAC. We also explain that autoencoder architecture constrained by gene ontology showed a problem of annotation in several cellular types done by expert. Broadly, constrained deep neural network architecture combined with interpretability methods enable target identification in PDAC.

L'identificazione di bersagli terapeutici in oncologia rimane una sfida clinica importante. La scoperta di farmaci richiede in media quindici anni e due miliardi di euro per essere completata, e solo nove candidati clinici su dieci programmi hanno successo. L'uso di modelli di deep learning aumenta la rilevanza dell'identificazione del bersaglio terapeutico. Tuttavia, questo può portare all'ottimizzazione del processo di sviluppo del farmaco a condizione di essere interpretabile dai ricercatori che lavoreranno su quei target. In questo lavoro, abbiamo progettato e implementato due architetture di reti neurali profonde che sono vincolate dalla conoscenza biologica per migliorare l'interpretabilità mantenendo buone prestazioni. L'obiettivo è scoprire bersagli terapeutici e processi biologici disregolati nell'adenocarcinoma duttale pancreatico (PDAC). Dimostriamo che le nostre architetture vincolate dalla conoscenza dell'ontologia genica, combinate con algoritmi di attribuzione basati sul gradiente, raggiungono accuratezze pari a quelle dei modelli a scatola nera, fornendo al contempo interpretabilità e portando all'identificazione di bersagli terapeutici spiegabili. Questi modelli sono stati addestrati utilizzando dati RNA-seq di singole cellule di pazienti. La convalida computazionale mediante l'analisi dell'arricchimento dei set di geni e l'estrazione manuale della letteratura rivelano che i bersagli DEFB1, TFF1 e FXYD3 identificati dal nostro algoritmo sono i più importanti per discriminare tra cellule tumorali e normali nel PDAC. Spieghiamo inoltre che l'architettura autoencoder vincolata all'ontologia genica ha mostrato un problema di annotazione in diversi tipi cellulari da parte di esperti. In generale, l'architettura della rete neurale profonda vincolata, combinata con i metodi di interpretabilità, consente di identificare i target nel PDAC.

Deep learning coupled with ontologies for interpretable identification of therapeutic targets from single-cell data

JOB, CHARLOTTE
2022/2023

Abstract

Therapeutic targets identification in oncology remains a major clinical challenge. Drug discovery takes on average fifteen years and two billion euros to be completed, and only nine clinical drug-candidate over ten programs are successful. The use of deep learning models increases the relevance of the therapeutic target identification. However, this can lead to the optimization of the drug development process at the condition of being interpretable by the researchers that will work on those targets. In this work, we have designed and implemented two deep neural networks architectures that are constrained by biological knowledge to enhance interpretability while maintaining good performance. The objective is to discover therapeutic targets and biological processes dysregulated in pancreatic ductal adenocarcinoma (PDAC). We demonstrate that our architectures constrained by gene ontology knowledge, combined with gradient-based attribution algorithms, achieve accuracies as good as black box models accuracies while providing interpretability, leading to explainable therapeutic targets identification. These models are trained using patient single cells RNA-seq data. Computational validation using gene set enrichment analysis as well as manual literature mining, reveal that the targets DEFB1, TFF1 and FXYD3 identified by our algorithm, are the most important to discriminate between tumoral and normal cells for PDAC. We also explain that autoencoder architecture constrained by gene ontology showed a problem of annotation in several cellular types done by expert. Broadly, constrained deep neural network architecture combined with interpretability methods enable target identification in PDAC.
ING - Scuola di Ingegneria Industriale e dell'Informazione
5-ott-2023
2022/2023
L'identificazione di bersagli terapeutici in oncologia rimane una sfida clinica importante. La scoperta di farmaci richiede in media quindici anni e due miliardi di euro per essere completata, e solo nove candidati clinici su dieci programmi hanno successo. L'uso di modelli di deep learning aumenta la rilevanza dell'identificazione del bersaglio terapeutico. Tuttavia, questo può portare all'ottimizzazione del processo di sviluppo del farmaco a condizione di essere interpretabile dai ricercatori che lavoreranno su quei target. In questo lavoro, abbiamo progettato e implementato due architetture di reti neurali profonde che sono vincolate dalla conoscenza biologica per migliorare l'interpretabilità mantenendo buone prestazioni. L'obiettivo è scoprire bersagli terapeutici e processi biologici disregolati nell'adenocarcinoma duttale pancreatico (PDAC). Dimostriamo che le nostre architetture vincolate dalla conoscenza dell'ontologia genica, combinate con algoritmi di attribuzione basati sul gradiente, raggiungono accuratezze pari a quelle dei modelli a scatola nera, fornendo al contempo interpretabilità e portando all'identificazione di bersagli terapeutici spiegabili. Questi modelli sono stati addestrati utilizzando dati RNA-seq di singole cellule di pazienti. La convalida computazionale mediante l'analisi dell'arricchimento dei set di geni e l'estrazione manuale della letteratura rivelano che i bersagli DEFB1, TFF1 e FXYD3 identificati dal nostro algoritmo sono i più importanti per discriminare tra cellule tumorali e normali nel PDAC. Spieghiamo inoltre che l'architettura autoencoder vincolata all'ontologia genica ha mostrato un problema di annotazione in diversi tipi cellulari da parte di esperti. In generale, l'architettura della rete neurale profonda vincolata, combinata con i metodi di interpretabilità, consente di identificare i target nel PDAC.
File allegati
File Dimensione Formato  
2023_10_Job_Thesis.pdf

accessibile in internet per tutti

Descrizione: Thesis: Deep Learning coupled with ontologies for interpretable identification of therapeutic targets from single-cell data
Dimensione 6.28 MB
Formato Adobe PDF
6.28 MB Adobe PDF Visualizza/Apri
2023_10_Job_ExecutiveSummary.pdf

accessibile in internet per tutti

Descrizione: Executive summary: Deep Learning coupled with ontologies for interpretable identification of therapeutic targets from single-cell data
Dimensione 1.17 MB
Formato Adobe PDF
1.17 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/211872