Drug discovery, traditionally challenged by lengthy development cycles, high costs, and substantial failure rates, has seen alleviation of these issues through the integration of various in-silico methods. This thesis primarily contributes to the Lead Identification stage of In-Silico Drug Discovery by introducing a Hybrid Scoring Function, DrugXGBScore. It is designed to assess Protein-Ligand Complex conformations generated during the Molecular Docking phase of Structure-Based Virtual Screening (SBVS). This function efficiently identifies a set of optimal ligands for a target protein from a large-scale drug molecule database, subsequently facilitating their advancement to wet laboratory experimental testing. Differentiating itself from other scoring functions, DrugXGBScore is specifically engineered to provide not only acceptable prediction accuracy but also an optimal balance with computing performance. This dual objective is attained through a two-pronged approach: algorithmically, by integrating Knowledge-based and Machine-learning scoring functions, and technologically, by seamlessly incorporating DrugXGBScore into our custom-designed High-Performance Computing (HPC) pipeline. The hybrid approach utilizes the straightforward structure of Knowledge-based methods, ensuring smooth integration with our HPC pipeline, while the Machine-learning component is designed to further enhance prediction accuracy. Additionally, the utilization of a high-performance GPU within our HPC pipeline plays a pivotal role in fulfilling our comprehensive HPC objectives. Based on the final evaluation results, DrugXGBScore not only achieved acceptable levels of prediction accuracy but also demonstrated remarkable computational performance. In a case study involving a target protein comprising 8,313 atoms, our HPC pipeline achieved an impressive throughput of 3,347 ligands per second while screening 28,500 decoys. This represents a performance enhancement of approximately four orders of magnitude compared to CPU-only processing.

La scoperta di farmaci, tradizionalmente composta da cicli di sviluppo lunghi, costi elevati e tassi di fallimento sostanziali, ha visto un alleggerimento di questi problemi attraverso l'integrazione di vari metodi in silico. Questa tesi contribuisce principalmente alla fase di Lead Identification nell'ambito della scoperta di farmaci in silico, introducendo una Scoring Function Ibrida, DrugXGBScore. È progettata per valutare le conformazioni del complesso Proteina-Ligando generate durante la fase di docking molecolare dello Structure-Based Virtual Screening. Questa funzione identifica efficientemente un insieme ottimale di ligandi per una proteina bersaglio da un'ampia database di molecole farmaceutiche, facilitando successivamente il loro avanzamento ai test sperimentali in laboratorio. Differenziandosi da altre Scoring Functions, DrugXGBScore è specificamente progettata per fornire un tradeoff ottimale tra l'accuratezza della previsione e le prestazioni di calcolo. Questo duplice obiettivo è raggiunto attraverso un approccio bifronte: algoritmicamente, integrando Knowledge-based e Machine Learning Scoring Functions, e tecnologicamente, incorporando senza problemi DrugXGBScore nella nostra pipeline di Calcolo ad Alte Prestazioni (HPC) personalizzata. L'approccio ibrido utilizza la struttura semplice dei metodi Knowledge-based, assicurando un'integrazione fluida con la nostra pipeline HPC, mentre la componente di Machine Learning è progettata per migliorare ulteriormente l'accuratezza della previsione. Inoltre, l'utilizzo di una GPU ad alte prestazioni all'interno della nostra pipeline HPC gioca un ruolo fondamentale nel realizzare i nostri obiettivi complessivi di HPC. Basandosi sui risultati della valutazione finale, DrugXGBScore non solo ha raggiunto livelli accettabili di precisione di previsione ma ha anche dimostrato notevoli prestazioni di calcolo. In uno caso di studio che coinvolge una proteina bersaglio composta da 8.313 atomi, la nostra pipeline HPC ha raggiunto un impressionante throughput di 3.347 ligandi al secondo durante lo screening di 28.500 decoys. Questo rappresenta un miglioramento delle prestazioni di circa quattro ordini di grandezza rispetto all'elaborazione solo CPU.

A novel hybrid scoring function for extreme-scale virtual screening in drug discovery

Zhang, Yuedong
2022/2023

Abstract

Drug discovery, traditionally challenged by lengthy development cycles, high costs, and substantial failure rates, has seen alleviation of these issues through the integration of various in-silico methods. This thesis primarily contributes to the Lead Identification stage of In-Silico Drug Discovery by introducing a Hybrid Scoring Function, DrugXGBScore. It is designed to assess Protein-Ligand Complex conformations generated during the Molecular Docking phase of Structure-Based Virtual Screening (SBVS). This function efficiently identifies a set of optimal ligands for a target protein from a large-scale drug molecule database, subsequently facilitating their advancement to wet laboratory experimental testing. Differentiating itself from other scoring functions, DrugXGBScore is specifically engineered to provide not only acceptable prediction accuracy but also an optimal balance with computing performance. This dual objective is attained through a two-pronged approach: algorithmically, by integrating Knowledge-based and Machine-learning scoring functions, and technologically, by seamlessly incorporating DrugXGBScore into our custom-designed High-Performance Computing (HPC) pipeline. The hybrid approach utilizes the straightforward structure of Knowledge-based methods, ensuring smooth integration with our HPC pipeline, while the Machine-learning component is designed to further enhance prediction accuracy. Additionally, the utilization of a high-performance GPU within our HPC pipeline plays a pivotal role in fulfilling our comprehensive HPC objectives. Based on the final evaluation results, DrugXGBScore not only achieved acceptable levels of prediction accuracy but also demonstrated remarkable computational performance. In a case study involving a target protein comprising 8,313 atoms, our HPC pipeline achieved an impressive throughput of 3,347 ligands per second while screening 28,500 decoys. This represents a performance enhancement of approximately four orders of magnitude compared to CPU-only processing.
GADIOLI, DAVIDE
ACCORDI, GIANMARCO
ING - Scuola di Ingegneria Industriale e dell'Informazione
19-dic-2023
2022/2023
La scoperta di farmaci, tradizionalmente composta da cicli di sviluppo lunghi, costi elevati e tassi di fallimento sostanziali, ha visto un alleggerimento di questi problemi attraverso l'integrazione di vari metodi in silico. Questa tesi contribuisce principalmente alla fase di Lead Identification nell'ambito della scoperta di farmaci in silico, introducendo una Scoring Function Ibrida, DrugXGBScore. È progettata per valutare le conformazioni del complesso Proteina-Ligando generate durante la fase di docking molecolare dello Structure-Based Virtual Screening. Questa funzione identifica efficientemente un insieme ottimale di ligandi per una proteina bersaglio da un'ampia database di molecole farmaceutiche, facilitando successivamente il loro avanzamento ai test sperimentali in laboratorio. Differenziandosi da altre Scoring Functions, DrugXGBScore è specificamente progettata per fornire un tradeoff ottimale tra l'accuratezza della previsione e le prestazioni di calcolo. Questo duplice obiettivo è raggiunto attraverso un approccio bifronte: algoritmicamente, integrando Knowledge-based e Machine Learning Scoring Functions, e tecnologicamente, incorporando senza problemi DrugXGBScore nella nostra pipeline di Calcolo ad Alte Prestazioni (HPC) personalizzata. L'approccio ibrido utilizza la struttura semplice dei metodi Knowledge-based, assicurando un'integrazione fluida con la nostra pipeline HPC, mentre la componente di Machine Learning è progettata per migliorare ulteriormente l'accuratezza della previsione. Inoltre, l'utilizzo di una GPU ad alte prestazioni all'interno della nostra pipeline HPC gioca un ruolo fondamentale nel realizzare i nostri obiettivi complessivi di HPC. Basandosi sui risultati della valutazione finale, DrugXGBScore non solo ha raggiunto livelli accettabili di precisione di previsione ma ha anche dimostrato notevoli prestazioni di calcolo. In uno caso di studio che coinvolge una proteina bersaglio composta da 8.313 atomi, la nostra pipeline HPC ha raggiunto un impressionante throughput di 3.347 ligandi al secondo durante lo screening di 28.500 decoys. Questo rappresenta un miglioramento delle prestazioni di circa quattro ordini di grandezza rispetto all'elaborazione solo CPU.
File allegati
File Dimensione Formato  
Thesis_ZhangYuedong_2023.pdf

accessibile in internet per tutti

Descrizione: Thesis
Dimensione 17.8 MB
Formato Adobe PDF
17.8 MB Adobe PDF Visualizza/Apri
Executive_Summary_ZhangYuedong_2023.pdf

accessibile in internet per tutti

Descrizione: Executive Summary
Dimensione 1.69 MB
Formato Adobe PDF
1.69 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/214596