In recent years, machine learning and deep learning have significantly reshaped the landscape of computational biology and drug discovery, enabling data-driven insights into complex biological interactions. This thesis presents AI-Bind 2.0, an innovative computational pipeline designed to enhance protein-ligand binding predictions with higher accuracy and robustness compared to previous models. The core advancement of AI-Bind 2.0 lies in its integration of pre-trained protein language models, specifically the ProtTrans model, a transformer-based architecture trained on vast biological datasets. By leveraging ProtTrans, AI-Bind 2.0 can capture intricate dependencies within protein sequences, yielding more precise, contextually rich representations of protein-ligand interactions than those achieved with earlier embedding techniques, such as ProtVec. To validate its effectiveness, AI-Bind 2.0 was trained and tested on a rigorously curated dataset drawn from sources like DrugBank, BindingDB, and Drug Target Commons, encompassing a balanced mix of binding and non-binding interactions. The evaluation was conducted using both transductive and inductive testing approaches to measure the model's generalization capabilities. Performance metrics, including the Area Under the Receiver Operating Characteristic Curve and the Area Under the Precision-Recall Curve, demonstrate AI-Bind 2.0’s notable improvements over its predecessor, particularly in handling interactions involving novel proteins and ligands. Additionally, AI-Bind 2.0’s application in COVID-19 research highlights its potential to expedite drug discovery by accurately predicting binding interactions with key viral proteins, thus aiding in the identification of promising therapeutic candidates. The contributions of this research underscore the potential of advanced natural language processing techniques in bioinformatics, demonstrating that transformer-based models can effectively capture complex biological patterns critical to drug discovery. By establishing a more accurate and generalizable framework for predicting protein-ligand interactions, AI-Bind 2.0 offers a valuable tool for computational biology and opens new avenues for research in understanding and targeting molecular mechanisms.
Negli ultimi decenni, i campi del Machine Learning e del Deep Learning hanno compiuto notevoli progressi in numerose applicazioni scientifiche, incluse la biologia computazionale e la scoperta di nuovi farmaci. Uno degli aspetti più impattanti di queste tecnologie riguarda la capacità di risolvere problemi complessi con precisione ed efficienza straordinarie, elementi fondamentali soprattutto nel contesto delle interazioni biomolecolari. In questo scenario, la presente tesi si concentra su AI-Bind 2.0, una pipeline avanzata progettata per predire l'interazione tra una proteina e un ligando, garantendo una maggiore accuratezza e capacità di generalizzazione rispetto alle versioni precedenti. La ricerca qui presentata integra modelli linguistici proteici pre-addestrati, in particolare il modello ProtTrans, un'architettura basata su Transformer addestrata su enormi quantità di dati biologici. ProtTrans si distingue per la capacità di cogliere dipendenze a lungo raggio nelle sequenze proteiche, migliorando significativamente la rappresentazione delle proteine. L'integrazione di questo modello consente ad AI-Bind 2.0 di superare le limitazioni degli approcci precedenti, come AI-Bind 1.0, che si affidava a tecniche di embedding meno avanzate e quindi limitava la profondità dell'analisi. In particolare, l'adozione di ProtTrans consente di catturare schemi complessi all'interno delle sequenze proteiche, aumentando la precisione e la potenza del modello. Il processo di addestramento e valutazione di AI-Bind 2.0 è stato condotto su un dataset bilanciato e accuratamente selezionato, comprendente interazioni di positive (legame) e negative (non legame) provenienti da diverse database rinomati come DrugBank, BindingDB e Drug Target Commons. Questa combinazione di dati ad alta qualità assicura che il modello sia in grado di generalizzare efficacemente e affrontare la complessità delle interazioni biomolecolari. Le prestazioni di AI-Bind 2.0 sono state valutate tramite test trasduttivi e induttivi, utilizzando metriche di valutazione come AUROC e AUPRC, che confermano l'eccellenza del modello soprattutto nel predire interazioni con proteine e ligandi mai osservati in fase di addestramento. I risultati sperimentali dimostrano che AI-Bind 2.0 supera significativamente il suo predecessore, mostrando un vantaggio chiaro nella previsione di interazioni proteina-ligando, in particolare in contesti in cui sono coinvolti nuovi compost o molecole. Inoltre, l'applicazione di AI-Bind 2.0 alla ricerca sul COVID-19 evidenzia il suo potenziale nell'identificazione di nuovi composti terapeutici, un aspetto che sottolinea la rilevanza di strumenti di intelligenza artificiale avanzati nella ricerca bioinformatica e nello sviluppo di farmaci. Questo lavoro contribuisce, quindi, al campo della biologia computazionale, evidenziando l'importanza delle tecniche di Natural Language Processing (NLP) in bioinformatica e aprendo nuove prospettive per l'applicazione di modelli linguistici pre-addestrati nell'analisi delle interazioni biologiche.
AI-Bind 2.0: leveraging pre-trained language model for protein-ligand binding prediction
NEGRO, MATTEO
2023/2024
Abstract
In recent years, machine learning and deep learning have significantly reshaped the landscape of computational biology and drug discovery, enabling data-driven insights into complex biological interactions. This thesis presents AI-Bind 2.0, an innovative computational pipeline designed to enhance protein-ligand binding predictions with higher accuracy and robustness compared to previous models. The core advancement of AI-Bind 2.0 lies in its integration of pre-trained protein language models, specifically the ProtTrans model, a transformer-based architecture trained on vast biological datasets. By leveraging ProtTrans, AI-Bind 2.0 can capture intricate dependencies within protein sequences, yielding more precise, contextually rich representations of protein-ligand interactions than those achieved with earlier embedding techniques, such as ProtVec. To validate its effectiveness, AI-Bind 2.0 was trained and tested on a rigorously curated dataset drawn from sources like DrugBank, BindingDB, and Drug Target Commons, encompassing a balanced mix of binding and non-binding interactions. The evaluation was conducted using both transductive and inductive testing approaches to measure the model's generalization capabilities. Performance metrics, including the Area Under the Receiver Operating Characteristic Curve and the Area Under the Precision-Recall Curve, demonstrate AI-Bind 2.0’s notable improvements over its predecessor, particularly in handling interactions involving novel proteins and ligands. Additionally, AI-Bind 2.0’s application in COVID-19 research highlights its potential to expedite drug discovery by accurately predicting binding interactions with key viral proteins, thus aiding in the identification of promising therapeutic candidates. The contributions of this research underscore the potential of advanced natural language processing techniques in bioinformatics, demonstrating that transformer-based models can effectively capture complex biological patterns critical to drug discovery. By establishing a more accurate and generalizable framework for predicting protein-ligand interactions, AI-Bind 2.0 offers a valuable tool for computational biology and opens new avenues for research in understanding and targeting molecular mechanisms.File | Dimensione | Formato | |
---|---|---|---|
2024_12_Negro_Tesi.pdf
accessibile in internet per tutti a partire dal 12/11/2027
Dimensione
7.97 MB
Formato
Adobe PDF
|
7.97 MB | Adobe PDF | Visualizza/Apri |
2024_12_Negro_Executive Summary.pdf
accessibile in internet per tutti a partire dal 12/11/2027
Dimensione
1.15 MB
Formato
Adobe PDF
|
1.15 MB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/229918