CPIExtract: a framework for collecting and harmonizing small molecule-protein interaction data from diverse databases

The binding interactions between small molecules (compounds) and proteins are fundamental to cellular functions and essential for understanding biological mechanisms. However, data on compound-protein interactions (CPI) are dispersed across multiple databases, each with unique formats and curation standards, creating significant challenges for researchers seeking to utilize this information. This work presents CPIExtract, a framework designed to systematically extract, filter, and harmonize CPI data from nine major databases into a single, unified format. By overcoming data heterogeneity, CPIExtract greatly expands the accessible collection of CPI data, providing over ten times the annotations available in a single database like DrugBank. The standardized datasets generated by CPIExtract enable researchers to streamline analysis and readily apply the information in disparate biomedical research applications. Namely, CPIExtract’s data aids the improvement of machine learning models, such as AI-Bind, for drug discovery. Integrating harmonized CPI data into their training improves these models' generalizability and performance, especially in predicting interactions for understudied compounds and proteins. This work highlights CPIExtract’s potential to accelerate the discovery and design of therapeutic agents by supplying robust, comprehensive datasets that bridge the gaps in current CPI databases.

Le interazioni tra piccole molecole (composti) e proteine sono fondamentali per le funzioni cellulari e per la comprensione dei meccanismi biologici. Tuttavia, i dati sulle interazioni composto-proteina (ICP) sono distribuiti in database diversi, ciascuno con formati e standard di mantenimento unici, creando un ostacolo significativo per i ricercatori che intendono utilizzare queste informazioni. Questo lavoro presenta CPIExtract, un framework progettato per estrarre, filtrare e armonizzare sistematicamente i dati ICP da nove principali database in un unico formato unificato. Superando l'eterogeneità dei dati, CPIExtract amplia notevolmente la raccolta accessibile di dati ICP, fornendo oltre dieci volte il numero di annotazioni disponibili rispetto ad un singolo database come DrugBank. I dataset standardizzati generati da CPIExtract permettono ai ricercatori di migliorare l'analisi e applicare facilmente le informazioni in diverse applicazioni di ricerca biomedica. In particolare, i dati di CPIExtract contribuiscono a migliorare i modelli di machine learning, come AI-Bind, per la scoperta di farmaci. Integrare i dati ICP armonizzati nel loro training migliora la generalizzabilità e le prestazioni di questi modelli, soprattutto nella previsione delle interazioni per composti e proteine meno studiati. Questo lavoro evidenzia il potenziale di CPIExtract per accelerare la scoperta e la progettazione di agenti terapeutici, fornendo dataset robusti e completi che colmano le lacune nei database ICP esistenti.