Molecular dynamics (MD) simulations, which are central to drug discovery, offer detailed insights into protein-ligand interactions. However, analyzing large MD datasets remains a challenge. Current machine-learning solutions are predominantly supervised and are limited by data labelling and standardisation issues. In this study, we adopted an unsupervised deep-learning framework, previously benchmarked for rigid proteins, to study the more flexible SARS-CoV-2 main protease Mpro. We ran MD simulations of Mpro with various ligands and refined the data by focusing on binding-site residues and time frames in stable protein conformations. The optimal descriptor chosen was the distance between the residues and the center of the binding pocket. Using this approach, a local dynamic ensemble was generated and fed into our neural network to compute Wasserstein distances across system pairs, revealing ligand-induced conformational differences in Mpro. Dimensionality reduction yielded an embedding map that correlated ligand-induced dynamics and binding affinity. Notably, the high-affinity compounds showed pronounced effects on the protein's conformations. We also identified the key residues that contributed to these differences. Our findings emphasize the potential of combining unsupervised deep learning with MD simulations to extract valuable information about protein-ligand molecular mechanisms and accelerate drug discovery, thereby setting the stage for rapid and refined therapeutic exploration.

Le simulazioni di dinamica molecolare (MD) rivestono un ruolo centrale nella scoperta e nello sviluppo di farmaci, fornendo la possibilità di esplorare a livello atomico le interazioni proteina-ligando. Tuttavia, l'analisi di grandi volumi di dati MD rimane una sfida. Tra gli approcci di apprendimento automatico al problema si trovano principalmente modelli supervisionati, con limiti legati all'etichettatura e alla standardizzazione dei dati. In questo studio è stato adattato e utilizzato un framework di deep-learning (apprendimento profondo) non supervisionato, precedentemente testato su proteine relativamente rigide, per studiare proteine flessibili attraverso un indagine con oggetto la proteasi principale del SARS-CoV-2 Mpro. Abbiamo eseguito simulazioni MD su Mpro con diversi ligandi e abbiamo elaborato i risultati concentrandoci sui residui situati nel sito di legame e su time frame caratterizzati dall'adozione di conformazioni stabili della proteina. Dopo aver testato diversi tipi di dati, abbiamo selezionato come descrittore ottimale dei dati MD la distanza tra i residui e il centro del sito di legame. Un insieme di traiettorie rappresentative della dinamica del descrittore (denominate local dynamc ensemble LDE) è stato generato e utilizzato come input della rete neurale per calcolare le distanze di Wasserstein tra le coppie di sistemi, rivelando differenze nella conformazione della proteina target Mpro dovuta ai ligandi. Utilizzando tecniche di riduzione della dimensionalità abbiamo prodotto una mappa che fornisce una semplice rappresentazione grafica della distanza relativa tra i sistemi. I risultati ottenuti mettono in relazione la dinamica indotta dai ligandi con le misure sperimentali di efficacia dei ligandi (IC50) con un coefficiente di Pearson di 0.7. Particolarmente evidenti sono stati gli effetti dei composti ad alta affinità sulla conformazione della proteina. Abbiamo anche condotto un'analisi per identificare i residui del sito di legame che hanno contribuito maggiormente alla differenze tra i sistemi, trovando conferma con altri risultati in letteratura. Il nostro metodo mette in evidenza come l'utilizzo di deep learning non supervisionato per l'analisi delle simulazioni MD abbia il potenziale di estrarre informazioni preziose sui meccanismi molecolari tra farmaco e target e accelerare la scoperta di farmaci, ponendo così le basi per un'esplorazione terapeutica rapida e efficace.

Unsupervised deep learning for molecular dynamics simulations: a novel analysis of protein-ligand interactions in SARS-CoV-2 Mpro

Mustali, Jessica
2022/2023

Abstract

Molecular dynamics (MD) simulations, which are central to drug discovery, offer detailed insights into protein-ligand interactions. However, analyzing large MD datasets remains a challenge. Current machine-learning solutions are predominantly supervised and are limited by data labelling and standardisation issues. In this study, we adopted an unsupervised deep-learning framework, previously benchmarked for rigid proteins, to study the more flexible SARS-CoV-2 main protease Mpro. We ran MD simulations of Mpro with various ligands and refined the data by focusing on binding-site residues and time frames in stable protein conformations. The optimal descriptor chosen was the distance between the residues and the center of the binding pocket. Using this approach, a local dynamic ensemble was generated and fed into our neural network to compute Wasserstein distances across system pairs, revealing ligand-induced conformational differences in Mpro. Dimensionality reduction yielded an embedding map that correlated ligand-induced dynamics and binding affinity. Notably, the high-affinity compounds showed pronounced effects on the protein's conformations. We also identified the key residues that contributed to these differences. Our findings emphasize the potential of combining unsupervised deep learning with MD simulations to extract valuable information about protein-ligand molecular mechanisms and accelerate drug discovery, thereby setting the stage for rapid and refined therapeutic exploration.
ING - Scuola di Ingegneria Industriale e dell'Informazione
19-dic-2023
2022/2023
Le simulazioni di dinamica molecolare (MD) rivestono un ruolo centrale nella scoperta e nello sviluppo di farmaci, fornendo la possibilità di esplorare a livello atomico le interazioni proteina-ligando. Tuttavia, l'analisi di grandi volumi di dati MD rimane una sfida. Tra gli approcci di apprendimento automatico al problema si trovano principalmente modelli supervisionati, con limiti legati all'etichettatura e alla standardizzazione dei dati. In questo studio è stato adattato e utilizzato un framework di deep-learning (apprendimento profondo) non supervisionato, precedentemente testato su proteine relativamente rigide, per studiare proteine flessibili attraverso un indagine con oggetto la proteasi principale del SARS-CoV-2 Mpro. Abbiamo eseguito simulazioni MD su Mpro con diversi ligandi e abbiamo elaborato i risultati concentrandoci sui residui situati nel sito di legame e su time frame caratterizzati dall'adozione di conformazioni stabili della proteina. Dopo aver testato diversi tipi di dati, abbiamo selezionato come descrittore ottimale dei dati MD la distanza tra i residui e il centro del sito di legame. Un insieme di traiettorie rappresentative della dinamica del descrittore (denominate local dynamc ensemble LDE) è stato generato e utilizzato come input della rete neurale per calcolare le distanze di Wasserstein tra le coppie di sistemi, rivelando differenze nella conformazione della proteina target Mpro dovuta ai ligandi. Utilizzando tecniche di riduzione della dimensionalità abbiamo prodotto una mappa che fornisce una semplice rappresentazione grafica della distanza relativa tra i sistemi. I risultati ottenuti mettono in relazione la dinamica indotta dai ligandi con le misure sperimentali di efficacia dei ligandi (IC50) con un coefficiente di Pearson di 0.7. Particolarmente evidenti sono stati gli effetti dei composti ad alta affinità sulla conformazione della proteina. Abbiamo anche condotto un'analisi per identificare i residui del sito di legame che hanno contribuito maggiormente alla differenze tra i sistemi, trovando conferma con altri risultati in letteratura. Il nostro metodo mette in evidenza come l'utilizzo di deep learning non supervisionato per l'analisi delle simulazioni MD abbia il potenziale di estrarre informazioni preziose sui meccanismi molecolari tra farmaco e target e accelerare la scoperta di farmaci, ponendo così le basi per un'esplorazione terapeutica rapida e efficace.
File allegati
File Dimensione Formato  
2023_12_Mustali_01.pdf

accessibile in internet per tutti

Descrizione: Main thesis in article format
Dimensione 10.3 MB
Formato Adobe PDF
10.3 MB Adobe PDF Visualizza/Apri
2023_12_Mustali_02.pdf

accessibile in internet per tutti

Descrizione: Executive Summary
Dimensione 998.87 kB
Formato Adobe PDF
998.87 kB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/213953