Architetture software per l'integrazione di dati genomici e proteomici nel data warehouse GPDW

The increase of experiments in the biomedical field originated an ever increasing amount of considerable data and information registered in many biomolecular databases. Researchers need to have these information in an aggregate way, which are often expressed through controlled vocabularies and ontologies, in order to analyze them overall through queries on integrated data; however, the heterogeneity of the many available data banks, both in schemas and contents, makes it difficult to aggregate and maintain such data updated. The Genomic and Proteomic Data Warehouse (GPDW) was created to address these issues; it is a project developed at Politecnico di Milano with the goal of realizing an efficient integration of biomolecular information from different heterogeneous data banks, through a modular framework able to import data from a set of data banks, integrating them in an accessible and web queryable database, all in a fully automated way. Despite the efforts during its design, the framework has some limits which make it difficult, in some cases, to integrate and maintain efficiently such data updated, ensuring an adequate control of their quality; also, the GPDW global data schema shows some lacks that limit specific data categories management. Primary target of this Thesis is designing and developing new general solutions and re-engineering existing procedures, in order to fix such lacks, improving quality, maintenance and usability of the imported and integrated data in the GPDW, and increasing efficiency of the implemented procedures. Secondary target is the application of the developed procedures to import heterogeneous data supplied by different data banks, integrating them in the GPDW. The developed software framework complies with the principles of modularity, independence between modules and generality of developed solutions, increasing software quality. Such characteristics and the modular conceptual data schema support integrated data evolution; furthermore, automated importing allows an easy maintenance of the updated integration in the database.

L'aumentare degli esperimenti in campo biomedico ha dato origine ad una sempre più crescente mole di dati e informazioni rilevanti archiviati in vari database biomolecolari. I ricercatori necessitano di avere in forma aggregata tali informazioni, spesso espresse tramite vocabolari controllati e ontologie, in modo da poterle analizzare complessivamente mediante query sui dati integrati; tuttavia, l'eterogeneità delle molte banche dati disponibili, sia negli schemi che nei contenuti, rende difficile aggregare e mantenere aggiornati tali dati. Da qui nasce il Genomic and Proteomic Data Warehouse (GPDW), un progetto sviluppato presso il Politecnico di Milano con l'obiettivo di realizzare un'integrazione efficiente delle informazioni biomolecolari provenienti da diverse banche dati eterogenee, tramite un framework modulare in grado di importare dati da un insieme di banche dati, integrandoli in un database accessibile e interrogabile via web, il tutto in modo totalmente automatizzato. Nonostante l'attenzione prestata durante la sua progettazione, il framework ha alcuni limiti che in alcuni casi rendono difficile integrare e mantenere aggiornati in modo efficiente tali dati, garantendo un adeguato controllo della loro qualità; inoltre, lo schema globale dei dati del GPDW mostra alcune carenze che limitano la gestione di specifiche categorie di dati. Obiettivo primario di questa Tesi è progettare e sviluppare nuove soluzioni generali e reingegnerizzare procedure già presenti, in modo da colmare tali carenze, migliorando qualità, mantenimento e fruibilità dei dati importati e integrati nel GPDW, e aumentando l'efficienza delle procedure implementate. Obiettivo secondario è l'applicazione delle procedure realizzate per importare dati eterogenei forniti da diverse banche dati, integrandoli nel GPDW. Il framework software rispetta i principi di modularità, indipendenza tra moduli e generalità delle soluzioni realizzate, aumentando la qualità del software prodotto. Tali caratteristiche e lo schema concettuale dei dati di tipo modulare supportano l'evoluzione dei dati integrati, inoltre l'importazione automatizzata consente di mantenere facilmente un'integrazione aggiornata del database.