The growing of information technologies and biotechnologies provides new scenarios for novel research approaches and greatly influences the evolution of modern disciplines as Bioinformatics. New biomedical applications, providing effective data management and analysis support, allow the integration and evaluation of controlled data with the goal of unveil new biomedical knowledge. Data warehousing is the main significant approach used in data integration when, as in the case of genomics and proteomics, transformation is required to clean data and make them available for querying and integrated analysis. Bioinformatics highlights the relevance of using computational technologies to describe and analyze biological systems in order to formulate hypothesis about life's molecular processes. The goal of Bioinformatics is to organize databases, analyze the acquired knowledge about genome and proteome and finally store, retrieve, visualize and effectively evaluate the available data and information. Today there are several public biomolecular databanks that offer to biologists, physicians and researchers the possibility of online consultation and download of such data freely. However these data are very heterogeneous and distributed, so that it is quite hard to create a consistent global overview of them. Therefore it is needed to have computational tools that overcome cross-search problem and provide the information not directly available from individual data sources. Already proposed models are quite complex, mainly suitable for single organisms and, in many cases, they require notable maintenance effort, in particular when data evolve rapidly, also in their structure. For this purpose, the Bioinformatics and Web Engineering Lab of Politecnico di Milano is working on a project, named Genomic and Proteomic Data Warehouse (GPDW), in order to create a data warehouse that integrates distributed information from many sources of genomic and proteomic data so that the integrated information is frequently updated, ensuring the quality of available biomolecular data integrated. The primary goal of this Thesis is to extend and generalize the process of the creation of the data warehouse, by creating new generic and automatic procedures for data extraction, transformation and load. The second Thesis goal is to implement necessary operations to integrate data, from the considered databanks, to the GPDW project, by developing generic components to be integrated to the existing GPDW software architecture. GPDW framework is based on a flexible multi-level data model which includes a source-import lower tier, an instance-aggregation middle tier and a concept-integration upper tier. This model is composed of interconnected modules, representing biomolecular entities and their biomedical features. A conceptual module, or feature, is structured in two levels, import and aggregation levels, whose concrete data computation is realized by data import and integration automatic procedures. The supporting structure of metadata provides a complete description of the conceptual data model, and eases data traceability, validation and consistency. Relevant aspects of Computer Science and Software Engineering are actually considered in the design of a new set of abstract procedures. The integration of new components to the framework extends generalization and modularity properties; in the same time, automatic procedures are able of adapting to small changes in data formats and to the continuous evolution of data in integrated sources. The customization of data parsing and loading procedures is applied to the considered data sources through the extension of the generic procedures defined and the specification of suitable metadata; additional operations of post-processing and data recovery are implemented, when closely required, by extending and customize generic procedures defined for this purpose, in order to complete the import process effectively. Testing and consistency checking are designed to validate the data imported in the data warehouse, by highlighting errors and anomalies, which trigger evaluations on possible enhancements and future developments.

Lo sviluppo delle tecnologie informatiche e delle biotecnologie offre nuovi scenari per un nuovo approccio nella ricerca scientifica e influenza l'evoluzione delle moderne discipline come la Bioinformatica. Le nuove applicazioni biomediche, che forniscono un efficace supporto all'analisi e alla gestione delle informazioni, consentono l'integrazione e la valutazione di dati controllati con lo scopo di svelare nuova conoscenza biomedica. A tal proposito, il data warehousing è stato significativamente usato per integrare dati che richiedono, come nel caso della genomica e della proteomica, di essere ripuliti prima di poter essere interrogati e sottoposti ad una analisi complessiva. La Bioinformatica evidenzia l’importanza di utilizzare le tecnologie computazionali per descrivere e analizzare i sistemi biologici allo scopo di formulare ipotesi sui processi molecolari della vita. Il fine della Bioinformatica è organizzare banche dati, analizzare le conoscenze acquisite sul genoma e sul proteoma e, per finire, conservare, recuperare, visualizzare e valutare efficientemente i dati e le informazioni disponibili. Oggi, esistono diverse banche dati biomolecolari, liberamente accessibili sul Web, che offrono a biologi, medici e ricercatori la possibilità di consultare online e scaricare tali dati. Tuttavia questi dati sono molto eterogenei e dispersi così che è abbastanza difficile creare una coerente visione d'insieme di essi. Nasce quindi la necessità di avere strumenti informatici per eseguire ricerche incrociate e recuperare le informazioni che non sono direttamente disponibili nelle diverse sorgenti considerate singolarmente. I modelli che sono stati proposti risultano complessi, principalmente adatti a descrivere singoli organismi e, nella maggior parte dei casi, richiedono un notevole lavoro di manutenzione, soprattutto quando i dati evolvono, anche nella loro struttura. In tal senso, il laboratorio di Bioinformatics and Web Engineering del Politecnico di Milano sta lavorando alla realizzazione di un progetto denominato Genomic and Proteomic Data Warehouse (GPDW), con l'obiettivo di creare un data warehouse che integri le informazioni distribuite su molte sorgenti di dati genomici e proteomici, in modo che i dati integrati siano frequentemente aggiornati e validati. Il primo scopo di questa Tesi è quello di estendere e generalizzare il processo di creazione del data warehouse, realizzando nuove procedure automatiche per l’estrazione, la trasformazione e caricamento dei dati. Il secondo obiettivo è quello di implementare le operazioni necessarie per l'integrazione dei dati, forniti dalle banche dati considerate, nel progetto GPDW, sviluppando nuovi moduli software, da integrare ai componenti presenti nell’architettura framework del GPDW. Il framework GPDW si basa su un modello dei dati flessibile e multilivello che include uno strato inferiore di importazione, uno intermedio di aggregazione e uno superiore di integrazione concettuale. Questo modello si compone di moduli interconnessi, rappresentati dalle entità biomolecolari e dalle loro caratteristiche biomedicali. Un modulo concettuale, o feature, è strutturato su due livelli, di importazione e di integrazione, la cui concreta realizzazione è operata dalle procedure automatiche di importazione e integrazione dei dati. La definizione dei metadati, inoltre, fornisce una completa descrizione dello schema concettuale dei dati, facilitando la loro tracciabilità, validazione e consistenza. Gli aspetti rilevanti dell'Informatica e dell'Ingegneria del Software sono concretamente considerati nel design di un nuovo insieme di procedure astratte. L'integrazione di nuovi componenti al framework estende i concetti di generalizzazione e modularità; inoltre, le procedure automatiche restano valide in caso di piccoli cambiamenti nel formato dei dati o del continuo aggiornamento dei dati nelle sorgenti integrate. La personalizzazione delle procedure di parsing e caricamento dei dati è realizzata per le sorgenti dati considerate, mediante l’estensione delle procedure generiche definite e la specificazione di adeguati metadati; aggiuntive procedure di post-processing e recupero dati sono implementate, quando strettamente necessario, estendendo e personalizzando le generiche procedure definite a questo scopo, in modo da completare il processo di importazione in modo corretto. Verifiche di consistenza e test sono progettati per validare i dati importati nel data warehouse, evidenziando anomalie ed errori che diventano spunti di riflessione per possibili miglioramenti e sviluppi futuri.

Design and implementation of automatic procedures to import and integrate data in a genomic and proteomic data warehouse

DI GIROLAMO, VINCENZO
2013/2014

Abstract

The growing of information technologies and biotechnologies provides new scenarios for novel research approaches and greatly influences the evolution of modern disciplines as Bioinformatics. New biomedical applications, providing effective data management and analysis support, allow the integration and evaluation of controlled data with the goal of unveil new biomedical knowledge. Data warehousing is the main significant approach used in data integration when, as in the case of genomics and proteomics, transformation is required to clean data and make them available for querying and integrated analysis. Bioinformatics highlights the relevance of using computational technologies to describe and analyze biological systems in order to formulate hypothesis about life's molecular processes. The goal of Bioinformatics is to organize databases, analyze the acquired knowledge about genome and proteome and finally store, retrieve, visualize and effectively evaluate the available data and information. Today there are several public biomolecular databanks that offer to biologists, physicians and researchers the possibility of online consultation and download of such data freely. However these data are very heterogeneous and distributed, so that it is quite hard to create a consistent global overview of them. Therefore it is needed to have computational tools that overcome cross-search problem and provide the information not directly available from individual data sources. Already proposed models are quite complex, mainly suitable for single organisms and, in many cases, they require notable maintenance effort, in particular when data evolve rapidly, also in their structure. For this purpose, the Bioinformatics and Web Engineering Lab of Politecnico di Milano is working on a project, named Genomic and Proteomic Data Warehouse (GPDW), in order to create a data warehouse that integrates distributed information from many sources of genomic and proteomic data so that the integrated information is frequently updated, ensuring the quality of available biomolecular data integrated. The primary goal of this Thesis is to extend and generalize the process of the creation of the data warehouse, by creating new generic and automatic procedures for data extraction, transformation and load. The second Thesis goal is to implement necessary operations to integrate data, from the considered databanks, to the GPDW project, by developing generic components to be integrated to the existing GPDW software architecture. GPDW framework is based on a flexible multi-level data model which includes a source-import lower tier, an instance-aggregation middle tier and a concept-integration upper tier. This model is composed of interconnected modules, representing biomolecular entities and their biomedical features. A conceptual module, or feature, is structured in two levels, import and aggregation levels, whose concrete data computation is realized by data import and integration automatic procedures. The supporting structure of metadata provides a complete description of the conceptual data model, and eases data traceability, validation and consistency. Relevant aspects of Computer Science and Software Engineering are actually considered in the design of a new set of abstract procedures. The integration of new components to the framework extends generalization and modularity properties; in the same time, automatic procedures are able of adapting to small changes in data formats and to the continuous evolution of data in integrated sources. The customization of data parsing and loading procedures is applied to the considered data sources through the extension of the generic procedures defined and the specification of suitable metadata; additional operations of post-processing and data recovery are implemented, when closely required, by extending and customize generic procedures defined for this purpose, in order to complete the import process effectively. Testing and consistency checking are designed to validate the data imported in the data warehouse, by highlighting errors and anomalies, which trigger evaluations on possible enhancements and future developments.
CANAKOGLU, ARIF
ING - Scuola di Ingegneria Industriale e dell'Informazione
25-lug-2014
2013/2014
Lo sviluppo delle tecnologie informatiche e delle biotecnologie offre nuovi scenari per un nuovo approccio nella ricerca scientifica e influenza l'evoluzione delle moderne discipline come la Bioinformatica. Le nuove applicazioni biomediche, che forniscono un efficace supporto all'analisi e alla gestione delle informazioni, consentono l'integrazione e la valutazione di dati controllati con lo scopo di svelare nuova conoscenza biomedica. A tal proposito, il data warehousing è stato significativamente usato per integrare dati che richiedono, come nel caso della genomica e della proteomica, di essere ripuliti prima di poter essere interrogati e sottoposti ad una analisi complessiva. La Bioinformatica evidenzia l’importanza di utilizzare le tecnologie computazionali per descrivere e analizzare i sistemi biologici allo scopo di formulare ipotesi sui processi molecolari della vita. Il fine della Bioinformatica è organizzare banche dati, analizzare le conoscenze acquisite sul genoma e sul proteoma e, per finire, conservare, recuperare, visualizzare e valutare efficientemente i dati e le informazioni disponibili. Oggi, esistono diverse banche dati biomolecolari, liberamente accessibili sul Web, che offrono a biologi, medici e ricercatori la possibilità di consultare online e scaricare tali dati. Tuttavia questi dati sono molto eterogenei e dispersi così che è abbastanza difficile creare una coerente visione d'insieme di essi. Nasce quindi la necessità di avere strumenti informatici per eseguire ricerche incrociate e recuperare le informazioni che non sono direttamente disponibili nelle diverse sorgenti considerate singolarmente. I modelli che sono stati proposti risultano complessi, principalmente adatti a descrivere singoli organismi e, nella maggior parte dei casi, richiedono un notevole lavoro di manutenzione, soprattutto quando i dati evolvono, anche nella loro struttura. In tal senso, il laboratorio di Bioinformatics and Web Engineering del Politecnico di Milano sta lavorando alla realizzazione di un progetto denominato Genomic and Proteomic Data Warehouse (GPDW), con l'obiettivo di creare un data warehouse che integri le informazioni distribuite su molte sorgenti di dati genomici e proteomici, in modo che i dati integrati siano frequentemente aggiornati e validati. Il primo scopo di questa Tesi è quello di estendere e generalizzare il processo di creazione del data warehouse, realizzando nuove procedure automatiche per l’estrazione, la trasformazione e caricamento dei dati. Il secondo obiettivo è quello di implementare le operazioni necessarie per l'integrazione dei dati, forniti dalle banche dati considerate, nel progetto GPDW, sviluppando nuovi moduli software, da integrare ai componenti presenti nell’architettura framework del GPDW. Il framework GPDW si basa su un modello dei dati flessibile e multilivello che include uno strato inferiore di importazione, uno intermedio di aggregazione e uno superiore di integrazione concettuale. Questo modello si compone di moduli interconnessi, rappresentati dalle entità biomolecolari e dalle loro caratteristiche biomedicali. Un modulo concettuale, o feature, è strutturato su due livelli, di importazione e di integrazione, la cui concreta realizzazione è operata dalle procedure automatiche di importazione e integrazione dei dati. La definizione dei metadati, inoltre, fornisce una completa descrizione dello schema concettuale dei dati, facilitando la loro tracciabilità, validazione e consistenza. Gli aspetti rilevanti dell'Informatica e dell'Ingegneria del Software sono concretamente considerati nel design di un nuovo insieme di procedure astratte. L'integrazione di nuovi componenti al framework estende i concetti di generalizzazione e modularità; inoltre, le procedure automatiche restano valide in caso di piccoli cambiamenti nel formato dei dati o del continuo aggiornamento dei dati nelle sorgenti integrate. La personalizzazione delle procedure di parsing e caricamento dei dati è realizzata per le sorgenti dati considerate, mediante l’estensione delle procedure generiche definite e la specificazione di adeguati metadati; aggiuntive procedure di post-processing e recupero dati sono implementate, quando strettamente necessario, estendendo e personalizzando le generiche procedure definite a questo scopo, in modo da completare il processo di importazione in modo corretto. Verifiche di consistenza e test sono progettati per validare i dati importati nel data warehouse, evidenziando anomalie ed errori che diventano spunti di riflessione per possibili miglioramenti e sviluppi futuri.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
2014_07_Di_Girolamo.pdf

accessibile in internet per tutti

Descrizione: Testo della tesi
Dimensione 2.4 MB
Formato Adobe PDF
2.4 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/94483