The Covid-19 pandemic motivated the urge for improvements in the research of new drugs. Recently, the virtualization of screening techniques has been successfully integrated into Drug Discovery pipelines to generate a fast and approximate investigation of the chemical space. In particular, advances in technology made possible the application of powerful docking methods that leverage the three-dimensional structure of the proteins to provide better analysis. However, Molecular Docking approaches are computationally intensive tasks, usually deployed in HPC environments to enable large scale of concurrency. In this thesis, we adopt classical Recommender Systems’ models to prioritize the evaluation of the most promising protein-ligand complexes that could be formed, which should be further analyzed via in-laboratory experimentation. Since no dataset is currently available to feed the models, an in-house docking pipeline has been built, thanks to the collaboration with IT4Innovations’ Super-Computing Center. The results of the experiment conducted show that our solution can efficiently exploit a set of evaluated protein-ligand interactions to re-rank the sequence of molecules to be visited when a new protein is taken into account. This optimization can enhance the time-to-solution in drug discovery and thus amortize the costs of execution.

La pandemia di Covid-19 ha motivato l'urgenza di miglioramenti nella ricerca di nuovi farmaci. Recentemente, la virtualizzazione delle tecniche di screening è stata integrata con successo nelle pipeline di Drug Discovery per generare un'indagine rapida e approssimativa dello spazio chimico. In particolare, i progressi tecnologici hanno reso possibile l'applicazione di potenti metodi di docking che sfruttano la struttura tridimensionale delle proteine ​​per fornire una migliore analisi. Tuttavia, gli approcci Molecular Docking richiedono attività computazionalmente intense, implementate solitamente in ambienti HPC per consentire una concorrenza su larga scala. In questa tesi adottiamo i modelli classici di Recommender Systems per dare priorità alla valutazione dei complessi proteina-ligando più promettenti che potrebbero formarsi, i quali dovranno essere ulteriormente analizzati tramite una sperimentazione in laboratorio. Poiché al momento non è disponibile alcun dataset per il training dei modelli, è stata costruita una pipeline di docking, resa possibile grazie alla collaborazione con il Centro di Super-Computing di IT4Innovations. I risultati dell'esperimento condotto mostrano che la nostra soluzione può sfruttare in modo efficiente un insieme di interazioni proteina-ligando, precedentemente valutate, per ri-ordinare la sequenza di molecole da visitare quando una nuova proteina viene presa in considerazione. Questa ottimizzazione può migliorare il tempo necessario impiegato nella scoperta di nuovi farmaci e quindi ammortizzare i costi di esecuzione.

A Recommender System Approach for in-silico drug discovery using HPC architectures

Russo Introito, Alessio
2020/2021

Abstract

The Covid-19 pandemic motivated the urge for improvements in the research of new drugs. Recently, the virtualization of screening techniques has been successfully integrated into Drug Discovery pipelines to generate a fast and approximate investigation of the chemical space. In particular, advances in technology made possible the application of powerful docking methods that leverage the three-dimensional structure of the proteins to provide better analysis. However, Molecular Docking approaches are computationally intensive tasks, usually deployed in HPC environments to enable large scale of concurrency. In this thesis, we adopt classical Recommender Systems’ models to prioritize the evaluation of the most promising protein-ligand complexes that could be formed, which should be further analyzed via in-laboratory experimentation. Since no dataset is currently available to feed the models, an in-house docking pipeline has been built, thanks to the collaboration with IT4Innovations’ Super-Computing Center. The results of the experiment conducted show that our solution can efficiently exploit a set of evaluated protein-ligand interactions to re-rank the sequence of molecules to be visited when a new protein is taken into account. This optimization can enhance the time-to-solution in drug discovery and thus amortize the costs of execution.
CEREDA, STEFANO
GADIOLI, DAVIDE
ING - Scuola di Ingegneria Industriale e dell'Informazione
7-giu-2022
2020/2021
La pandemia di Covid-19 ha motivato l'urgenza di miglioramenti nella ricerca di nuovi farmaci. Recentemente, la virtualizzazione delle tecniche di screening è stata integrata con successo nelle pipeline di Drug Discovery per generare un'indagine rapida e approssimativa dello spazio chimico. In particolare, i progressi tecnologici hanno reso possibile l'applicazione di potenti metodi di docking che sfruttano la struttura tridimensionale delle proteine ​​per fornire una migliore analisi. Tuttavia, gli approcci Molecular Docking richiedono attività computazionalmente intense, implementate solitamente in ambienti HPC per consentire una concorrenza su larga scala. In questa tesi adottiamo i modelli classici di Recommender Systems per dare priorità alla valutazione dei complessi proteina-ligando più promettenti che potrebbero formarsi, i quali dovranno essere ulteriormente analizzati tramite una sperimentazione in laboratorio. Poiché al momento non è disponibile alcun dataset per il training dei modelli, è stata costruita una pipeline di docking, resa possibile grazie alla collaborazione con il Centro di Super-Computing di IT4Innovations. I risultati dell'esperimento condotto mostrano che la nostra soluzione può sfruttare in modo efficiente un insieme di interazioni proteina-ligando, precedentemente valutate, per ri-ordinare la sequenza di molecole da visitare quando una nuova proteina viene presa in considerazione. Questa ottimizzazione può migliorare il tempo necessario impiegato nella scoperta di nuovi farmaci e quindi ammortizzare i costi di esecuzione.
File allegati
File Dimensione Formato  
Executive_Summary.pdf

Open Access dal 18/05/2023

Dimensione 1.02 MB
Formato Adobe PDF
1.02 MB Adobe PDF Visualizza/Apri
Tesi_LM.pdf

Open Access dal 18/05/2023

Dimensione 6.69 MB
Formato Adobe PDF
6.69 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/189099