The human capacity of treating illness is one of the mechanisms that have led our species to an overall increase in life quality and an increase in the human population. The drug discovery process aims at finding suitable treatments for diseases. This process is usually carried out with in vitro testing of compounds against a target protein. In this way, the process can be very long and costly. It requires time, human efforts, and chemical components. With the advent of supercomputers, arises the idea of using computer-generated models to get a hint on the most promising compounds. This generated a new field of research on virtual screening pipeline, which is a pipeline of compounds screening against a target protein, done virtually. Since a large dataset of compounds exists it becomes necessary to scale an HPC infrastructure to analyze each compound against the disease. Nowadays high-performance computing environment is facing an increasing challenge in trying to continuously speed up the computation: Moore's law decline makes it impossible to increase the computational power by relying only on components miniaturization. These premises created the general interest in pursuing new techniques, that enable us to be more efficient while being faster. So we need to keep in mind the balance that exists between memory usage and computation requirements. The outbreak of the recent pandemic has shown us how the existence of a fast and reliable process of molecular docking for drug discovery, could lead to a faster response when fighting these such emergencies in the next future. This document has the objective of proposing a way in which we can increase the throughput of a molecular docking simulation as much as possible, by analyzing which part of the pipeline can be accelerated. The techniques used in this thesis to accelerate and application comes from approximated computing field. In the end, we will apply the result of the analysis on the pipeline of a CADD: LiGen.

La capacità della razza umana nel curare le malattie è uno dei motivi che ha permesso alla nostra specie di aumentare la sua aspettativa di vita, e di conseguenza anche di aumentare la sua popolazione. La scoperta di cure per le malattie viene solitamenta fatta eseguendo test in vitro, in cui vengono analizzati gli effetti di vari composti chimici sui recettori di alcune malattie. Ques'ultimo è però un processo molto lungo e costoso. Richiede tempo, fatica, e reagenti chimici. Con l'avvento dei supercomputer, è nata l'idea di usare dei model computerizzati per ottenere degli indizzi su quali potessero essere i composti chimici di maggiore interesse per fare test in vitro. Ciò ha portato alla nascita di molti studi sulle virtual screening pipeline, cioè pipeline di analisi degli effetti di vari composti chimici su diverse malattie. Siccome al giorno d'oggi esistono grandi raccolte di composti chimici conosciuti dalla scienza, è necessario progettare una struttura HPC per analizzare ogni composto contro la malattia obbiettivo dell'analisi. A questo punto i ricercatori nell'ambito del HPC devono affrontare una sfida sempre maggiore, nell'accelerare la computazione: il declino della legge di Moore rende impossibile l'aumento della potenza computazione basandosi solo sulla miniaturizzazione delle componenti. Ed è proprio per questo che i ricercatori hanno iniziato a perseguire nuove strade, per essere più veloci ed efficenti nella computazione. Bisogna però sempre tenere in considerazione il tradeoff che esiste tra l'utilizzo della memoria e la potenza di calcolo richiesta. Lo scoppio della recente pandemia ha mostrato come una più vloce virtual screeing pipeline possa essere di aiuto nel combattere emergenze future simili a questa. Questa tesi ha come obbiettivo quello di proporre un metodo che può essere utilizzato per aumentare l'output di una simulazione di molecular docking il più possibile, attraverso un'analisi delle componenti della pipeline che possono essere accelerate. Le tecniche utilizzate per accelerare la pipeline sono prese dal campo dell'approximated computing. Alla fine analizzeremo l'impatto di queste tecniche su un CADD: LiGen.

A High-throughput pose selection method for extreme scale virtual screening in drug discovery

Accordi, Gianmarco
2020/2021

Abstract

The human capacity of treating illness is one of the mechanisms that have led our species to an overall increase in life quality and an increase in the human population. The drug discovery process aims at finding suitable treatments for diseases. This process is usually carried out with in vitro testing of compounds against a target protein. In this way, the process can be very long and costly. It requires time, human efforts, and chemical components. With the advent of supercomputers, arises the idea of using computer-generated models to get a hint on the most promising compounds. This generated a new field of research on virtual screening pipeline, which is a pipeline of compounds screening against a target protein, done virtually. Since a large dataset of compounds exists it becomes necessary to scale an HPC infrastructure to analyze each compound against the disease. Nowadays high-performance computing environment is facing an increasing challenge in trying to continuously speed up the computation: Moore's law decline makes it impossible to increase the computational power by relying only on components miniaturization. These premises created the general interest in pursuing new techniques, that enable us to be more efficient while being faster. So we need to keep in mind the balance that exists between memory usage and computation requirements. The outbreak of the recent pandemic has shown us how the existence of a fast and reliable process of molecular docking for drug discovery, could lead to a faster response when fighting these such emergencies in the next future. This document has the objective of proposing a way in which we can increase the throughput of a molecular docking simulation as much as possible, by analyzing which part of the pipeline can be accelerated. The techniques used in this thesis to accelerate and application comes from approximated computing field. In the end, we will apply the result of the analysis on the pipeline of a CADD: LiGen.
GADIOLI, DAVIDE
GAUTIERI, ALFONSO
ING - Scuola di Ingegneria Industriale e dell'Informazione
28-apr-2022
2020/2021
La capacità della razza umana nel curare le malattie è uno dei motivi che ha permesso alla nostra specie di aumentare la sua aspettativa di vita, e di conseguenza anche di aumentare la sua popolazione. La scoperta di cure per le malattie viene solitamenta fatta eseguendo test in vitro, in cui vengono analizzati gli effetti di vari composti chimici sui recettori di alcune malattie. Ques'ultimo è però un processo molto lungo e costoso. Richiede tempo, fatica, e reagenti chimici. Con l'avvento dei supercomputer, è nata l'idea di usare dei model computerizzati per ottenere degli indizzi su quali potessero essere i composti chimici di maggiore interesse per fare test in vitro. Ciò ha portato alla nascita di molti studi sulle virtual screening pipeline, cioè pipeline di analisi degli effetti di vari composti chimici su diverse malattie. Siccome al giorno d'oggi esistono grandi raccolte di composti chimici conosciuti dalla scienza, è necessario progettare una struttura HPC per analizzare ogni composto contro la malattia obbiettivo dell'analisi. A questo punto i ricercatori nell'ambito del HPC devono affrontare una sfida sempre maggiore, nell'accelerare la computazione: il declino della legge di Moore rende impossibile l'aumento della potenza computazione basandosi solo sulla miniaturizzazione delle componenti. Ed è proprio per questo che i ricercatori hanno iniziato a perseguire nuove strade, per essere più veloci ed efficenti nella computazione. Bisogna però sempre tenere in considerazione il tradeoff che esiste tra l'utilizzo della memoria e la potenza di calcolo richiesta. Lo scoppio della recente pandemia ha mostrato come una più vloce virtual screeing pipeline possa essere di aiuto nel combattere emergenze future simili a questa. Questa tesi ha come obbiettivo quello di proporre un metodo che può essere utilizzato per aumentare l'output di una simulazione di molecular docking il più possibile, attraverso un'analisi delle componenti della pipeline che possono essere accelerate. Le tecniche utilizzate per accelerare la pipeline sono prese dal campo dell'approximated computing. Alla fine analizzeremo l'impatto di queste tecniche su un CADD: LiGen.
File allegati
File Dimensione Formato  
2022_04_Accordi_Gianmarco_Executive_Summary.pdf

accessibile in internet per tutti

Descrizione: Executive summary
Dimensione 561.95 kB
Formato Adobe PDF
561.95 kB Adobe PDF Visualizza/Apri
2022_04_Accordi_Gianmarco_Thesis.pdf

accessibile in internet per tutti

Descrizione: Thesis
Dimensione 2.95 MB
Formato Adobe PDF
2.95 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/187431