High throughput molecular expansion for extreme scale virtual screening campaign

In drug discovery, the search for treatments traditionally involves in vitro testing of chemical compounds against target proteins, but this approach is often slow, costly, and resource-intensive. The advent of supercomputing has revolutionized this process by allowing computational models to virtually predict promising compounds for experimental testing. This has led to the creation of virtual screening pipelines, where large datasets of chemical compounds are computationally examined to identify potential drug candidates. Chemical libraries have expanded to millions of compounds, requiring High-Performance Computing (HPC) infrastructures to efficiently process such volumes. A key challenge is balancing computational performance with storage demands. Precomputing the minimum-energy conformations of molecules can speed up screening, but storing the 3D structures of millions of molecules requires enormous storage capacity, often reaching petabytes, which is impractical. Achieving a balance between performance and storage is crucial. Compact molecular representations, such as the Simplified Molecular Input Line Entry System (SMILES), reduce storage requirements compared to 3D structures. From SMILES, a low-energy stable 3D conformation can be generated, which is essential for accurate drug screening. Energy minimization is the central computational challenge. This thesis explores optimizations to minimize the energy of molecules derived from their SMILES representation. By integrating techniques like parallelization to efficiently expand compact molecular storage, we aim to accelerate pre-processing for virtual screening, enabling faster and scalable exploration of large chemical datasets and increasing the likelihood of discovering new drugs.

Nella scoperta di farmaci, la ricerca di trattamenti tradizionalmente coinvolge test in vitro di composti chimici contro proteine bersaglio, ma questo approccio è spesso lento, costoso e richiede molte risorse. L'avvento del supercalcolo ha rivoluzionato il processo, consentendo ai modelli computazionali di prevedere virtualmente composti promettenti da testare sperimentalmente. Questo ha portato alla creazione di pipeline di screening virtuale, dove vasti dataset di composti chimici vengono esaminati per identificare potenziali farmaci. Le librerie chimiche sono cresciute fino a milioni di composti, richiedendo infrastrutture HPC (High-Performance Computing) per elaborare efficientemente tali volumi. Una sfida chiave è bilanciare prestazioni computazionali e archiviazione. Precalcolare le conformazioni a energia minima delle molecole può accelerare lo screening, ma memorizzare le strutture 3D di milioni di molecole richiede enormi capacità di archiviazione, fino a petabyte, spesso impraticabili. Un equilibrio tra prestazioni e archiviazione è cruciale. Rappresentazioni molecolari compatte, come il Simplified Molecular Input Line Entry System (SMILES), riducono i requisiti di archiviazione rispetto alle strutture 3D. Dagli SMILES si può generare una conformazione 3D stabile a bassa energia, fondamentale per lo screening farmacologico. La minimizzazione dell'energia è la sfida computazionale principale. Questa tesi esplora l'uso di ottimizzazioni per minimizzare l'energia delle molecole derivate dalla loro rappresentazione SMILES. Integrando tecniche come la parallelizzazione con una archiviazione molecolare compatta, miriamo ad accelerare la fase di preprocessing dello screening virtuale, consentendo un'esplorazione più rapida e scalabile di grandi dataset chimici, aumentando la probabilità di scoprire nuovi farmaci.