The growing available genomic information provides new opportunities for novel research approaches and original biomedical applications that can provide effective data management and analysis support. In fact, integration and comprehensive evaluation of available controlled data can highlight information patterns leading to unveil new biomedical knowledge. The goal of bioinformatics is to organize databases, analyze the knowledge acquired in the genome and proteome and finally store, retrieve and monitor effectively the information available today. There are many public Web databases that allow online consultation and provide the possibility to download such information freely. However these data, which are available and important to biologists, doctors and researchers, are very heterogeneous and distributed. Therefore it is needed a tool that overcomes cross-search problem on various data-sources and returns the information which is not possible to get from individual data sources. For this purpose, in the University of Politecnico di Milano, a project, Genomic and Proteomic Data Warehouse (GPDW), is creating a data warehouse that integrates information from many sources of genomic and proteomic data on the basis of a conceptual framework that relates molecular entities and biomedical characteristics (features). The primary goal of this Thesis is to develop an extension for biomolecular interaction data on the GPDW framework and the second goal is to implement the integration of such type of data, from two considered databanks, to the GPDW project, by using the framework extension implemented as first goal of the Thesis. After this abstract, chapter 2, Introduction, of this Thesis is about the conceptual meaning of bioinformatics, with the origins and the historical development of the discipline and the tasks and goals of the discipline. Then information about genomic and proteomic fields is briefly explained. Next the chapter talks about controlled vocabularies, ontologies and functional annotations and their usage in bioinformatics. In this first part, the main concepts of bioinformatics are given. Thereafter, it is introduced another important part of the bioinformatics, regarding biomolecular databanks and data, and the current difficulties of using such biomolecular data. This chapter continues giving information about the GPDW project and its current status. In chapter 3, the goals of the Thesis are discussed. In chapter 4, the extension of the GPDW project for integrating biomolecular interaction data and the necessary development to be achieved for this extension are discussed. This is explained in the chapter subsections as data importing procedures, for importing data from external databanks, and data integration procedures, which is about integration of the data into the data warehouse and metadata computation and storing, which is as about storing the metadata of the data warehouse into the metadata schema of the database. In chapter 5, the databanks considered in this Thesis are presented by explaining some general, historical and statistical information; information about the provided types of data and files are also given. In chapter 6, the design of the integration of the considered databank data is described. This mainly generated entity relationship diagrams and logical diagrams of the considered databank data. Chapter 7 describes the software architecture and methodologies implemented for the automatic import of data from the databank provided data files, the contents of those files, and the design choices and strategies adopted to achieve a correct and consistent import. Chapter 8 shows some quantitative results related to the imported data and the time taken to import them. In chapter 9, the conclusions, which confirm the legitimacy of the design choices and activities undertaken to achieve the objectives, are discussed. Chapter 10 includes references to books, scientific articles and web sites referred in the elaboration of this Thesis.

Le crescenti informazioni genomiche disponibili offrono nuove opportunità per nuovi approcci di ricerca e originali applicazioni biomediche, in grado di fornire un'efficace gestione dei dati e il supporto all’analisi. Infatti, l'integrazione e la valutazione globale dei dati controllati disponibili può evidenziare modelli di informazione che permettono di svelare nuove conoscenze biomediche. L'obiettivo della bioinformatica è quello di organizzare banche dati, analizzare le conoscenze acquisite del genoma e del proteoma e, infine, archiviare, recuperare e controllare in modo efficace le informazioni attualmente disponibili. Esistono molte banche dati Web pubbliche che consentono la consultazione on-line e forniscono la possibilità di scaricare liberamente tali informazioni. Tuttavia questi dati, che sono disponibili ed importanti per biologi, medici e ricercatori, sono molto eterogenei e distribuiti. Pertanto è necessario disporre di uno strumento che permetta di superare i problemi di ricerca tra le varie fonti di dati ed in grado di restituire le informazioni che non è possibile ottenere dalla consultazione di singole fonti dati. A tal fine, presso il Politecnico di Milano, è stato creato un progetto denominato Genomic and Proteomic Data Warehouse (GPDW): si tratta di un data warehouse che integra le informazioni provenienti da molte fonti dati genomiche e proteomiche, sulla base di un quadro concettuale che si riferisce ad entità molecolari e caratteristiche biomediche (funzionalità). L'obiettivo primario di questa tesi è quello di sviluppare un'estensione per l’interazione biomolecolare di dati nel framework GPDW, mentre il secondo obiettivo è quello di implementare l'integrazione di questo tipo di dati, provenienti da due banche dati considerate utilizzando l'estensione implementata come primo obiettivo della tesi. Dopo questo riassunto, nel capitolo 2, Introduzione riguarda il significato concettuale della bioinformatica, le origini e lo sviluppo storico della disciplina, nonché i compiti e gli obiettivi. In seguito vengono brevemente fornite informazioni sulla genomica e proteomica. Il capitolo successivo tratta i vocabolari controllati, le ontologie e le annotazioni funzionali ed il loro utilizzo nella bioinformatica. In questa prima parte, vengono spiegati i concetti principali della bioinformatica. Successivamente, è introdotto un altro elemento importante della bioinformatica, riguardante le banche dati biomolecolari e le attuali difficoltà di utilizzare tali informazioni. Questo capitolo continua fornendo informazioni sul progetto del GPDW ed il suo stato attuale. Nel capitolo 3 sono discussi gli obiettivi della Tesi. Nel capitolo 4 sono trattati l'estensione del progetto GPDW per l'integrazione di dati di interazione biomolecolare e lo sviluppo raggiunto per questa estensione. Questo aspetto è spiegato nelle sottosezioni del capitolo, tra cui le procedure di importazione di dati da banche dati esterne, le procedure di integrazione dei dati che riguardano l'integrazione dei dati nel data warehouse, e la memorizzazione e creazione dei metadati, che riguardano la conservazione dei metadati del data warehouse nello schema dei metadati del database. Nel capitolo 5 sono presentate le banche dati considerate in questa tesi, spiegando alcune informazioni generali, storiche e statistiche, come anche informazioni sui tipi di dato e i tipi di file forniti. Nel capitolo 6 è descritto il progetto di integrazione delle banca dati considerate. Sono stati realizzati diagrammi entità-relazione e diagrammi logici delle banca dati prese in considerazione. Il capitolo 7 descrive l'architettura software e le metodologie attuate per l'importazione automatica dei dati dai file forniti dalle banche dati, il contenuto di tali file, e le scelte progettuali e le strategie adottate per raggiungere una corretta e consistente importazione. Il capitolo 8 mostra alcuni risultati quantitativi relativi ai dati importati e il tempo necessario per importarli. Nel capitolo 9 vengono discusse le conclusioni, che confermano la legittimità delle scelte progettuali e le attività intraprese per raggiungere gli obiettivi. Il capitolo 10 include riferimenti a libri, articoli scientifici e siti web a cui si fa riferimento nell’elaboratodi questa tesi.

Integration of biomelecular interaction data in a genomic and proteomic data warehouse

CANAKOGLU, ARIF
2009/2010

Abstract

The growing available genomic information provides new opportunities for novel research approaches and original biomedical applications that can provide effective data management and analysis support. In fact, integration and comprehensive evaluation of available controlled data can highlight information patterns leading to unveil new biomedical knowledge. The goal of bioinformatics is to organize databases, analyze the knowledge acquired in the genome and proteome and finally store, retrieve and monitor effectively the information available today. There are many public Web databases that allow online consultation and provide the possibility to download such information freely. However these data, which are available and important to biologists, doctors and researchers, are very heterogeneous and distributed. Therefore it is needed a tool that overcomes cross-search problem on various data-sources and returns the information which is not possible to get from individual data sources. For this purpose, in the University of Politecnico di Milano, a project, Genomic and Proteomic Data Warehouse (GPDW), is creating a data warehouse that integrates information from many sources of genomic and proteomic data on the basis of a conceptual framework that relates molecular entities and biomedical characteristics (features). The primary goal of this Thesis is to develop an extension for biomolecular interaction data on the GPDW framework and the second goal is to implement the integration of such type of data, from two considered databanks, to the GPDW project, by using the framework extension implemented as first goal of the Thesis. After this abstract, chapter 2, Introduction, of this Thesis is about the conceptual meaning of bioinformatics, with the origins and the historical development of the discipline and the tasks and goals of the discipline. Then information about genomic and proteomic fields is briefly explained. Next the chapter talks about controlled vocabularies, ontologies and functional annotations and their usage in bioinformatics. In this first part, the main concepts of bioinformatics are given. Thereafter, it is introduced another important part of the bioinformatics, regarding biomolecular databanks and data, and the current difficulties of using such biomolecular data. This chapter continues giving information about the GPDW project and its current status. In chapter 3, the goals of the Thesis are discussed. In chapter 4, the extension of the GPDW project for integrating biomolecular interaction data and the necessary development to be achieved for this extension are discussed. This is explained in the chapter subsections as data importing procedures, for importing data from external databanks, and data integration procedures, which is about integration of the data into the data warehouse and metadata computation and storing, which is as about storing the metadata of the data warehouse into the metadata schema of the database. In chapter 5, the databanks considered in this Thesis are presented by explaining some general, historical and statistical information; information about the provided types of data and files are also given. In chapter 6, the design of the integration of the considered databank data is described. This mainly generated entity relationship diagrams and logical diagrams of the considered databank data. Chapter 7 describes the software architecture and methodologies implemented for the automatic import of data from the databank provided data files, the contents of those files, and the design choices and strategies adopted to achieve a correct and consistent import. Chapter 8 shows some quantitative results related to the imported data and the time taken to import them. In chapter 9, the conclusions, which confirm the legitimacy of the design choices and activities undertaken to achieve the objectives, are discussed. Chapter 10 includes references to books, scientific articles and web sites referred in the elaboration of this Thesis.
GHISALBERTI, GIORGIO
ING V - Facolta' di Ingegneria dell'Informazione
31-mar-2011
2009/2010
Le crescenti informazioni genomiche disponibili offrono nuove opportunità per nuovi approcci di ricerca e originali applicazioni biomediche, in grado di fornire un'efficace gestione dei dati e il supporto all’analisi. Infatti, l'integrazione e la valutazione globale dei dati controllati disponibili può evidenziare modelli di informazione che permettono di svelare nuove conoscenze biomediche. L'obiettivo della bioinformatica è quello di organizzare banche dati, analizzare le conoscenze acquisite del genoma e del proteoma e, infine, archiviare, recuperare e controllare in modo efficace le informazioni attualmente disponibili. Esistono molte banche dati Web pubbliche che consentono la consultazione on-line e forniscono la possibilità di scaricare liberamente tali informazioni. Tuttavia questi dati, che sono disponibili ed importanti per biologi, medici e ricercatori, sono molto eterogenei e distribuiti. Pertanto è necessario disporre di uno strumento che permetta di superare i problemi di ricerca tra le varie fonti di dati ed in grado di restituire le informazioni che non è possibile ottenere dalla consultazione di singole fonti dati. A tal fine, presso il Politecnico di Milano, è stato creato un progetto denominato Genomic and Proteomic Data Warehouse (GPDW): si tratta di un data warehouse che integra le informazioni provenienti da molte fonti dati genomiche e proteomiche, sulla base di un quadro concettuale che si riferisce ad entità molecolari e caratteristiche biomediche (funzionalità). L'obiettivo primario di questa tesi è quello di sviluppare un'estensione per l’interazione biomolecolare di dati nel framework GPDW, mentre il secondo obiettivo è quello di implementare l'integrazione di questo tipo di dati, provenienti da due banche dati considerate utilizzando l'estensione implementata come primo obiettivo della tesi. Dopo questo riassunto, nel capitolo 2, Introduzione riguarda il significato concettuale della bioinformatica, le origini e lo sviluppo storico della disciplina, nonché i compiti e gli obiettivi. In seguito vengono brevemente fornite informazioni sulla genomica e proteomica. Il capitolo successivo tratta i vocabolari controllati, le ontologie e le annotazioni funzionali ed il loro utilizzo nella bioinformatica. In questa prima parte, vengono spiegati i concetti principali della bioinformatica. Successivamente, è introdotto un altro elemento importante della bioinformatica, riguardante le banche dati biomolecolari e le attuali difficoltà di utilizzare tali informazioni. Questo capitolo continua fornendo informazioni sul progetto del GPDW ed il suo stato attuale. Nel capitolo 3 sono discussi gli obiettivi della Tesi. Nel capitolo 4 sono trattati l'estensione del progetto GPDW per l'integrazione di dati di interazione biomolecolare e lo sviluppo raggiunto per questa estensione. Questo aspetto è spiegato nelle sottosezioni del capitolo, tra cui le procedure di importazione di dati da banche dati esterne, le procedure di integrazione dei dati che riguardano l'integrazione dei dati nel data warehouse, e la memorizzazione e creazione dei metadati, che riguardano la conservazione dei metadati del data warehouse nello schema dei metadati del database. Nel capitolo 5 sono presentate le banche dati considerate in questa tesi, spiegando alcune informazioni generali, storiche e statistiche, come anche informazioni sui tipi di dato e i tipi di file forniti. Nel capitolo 6 è descritto il progetto di integrazione delle banca dati considerate. Sono stati realizzati diagrammi entità-relazione e diagrammi logici delle banca dati prese in considerazione. Il capitolo 7 descrive l'architettura software e le metodologie attuate per l'importazione automatica dei dati dai file forniti dalle banche dati, il contenuto di tali file, e le scelte progettuali e le strategie adottate per raggiungere una corretta e consistente importazione. Il capitolo 8 mostra alcuni risultati quantitativi relativi ai dati importati e il tempo necessario per importarli. Nel capitolo 9 vengono discusse le conclusioni, che confermano la legittimità delle scelte progettuali e le attività intraprese per raggiungere gli obiettivi. Il capitolo 10 include riferimenti a libri, articoli scientifici e siti web a cui si fa riferimento nell’elaboratodi questa tesi.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
arif_canakoglu.pdf

accessibile in internet per tutti

Descrizione: Thesis text
Dimensione 931.53 kB
Formato Adobe PDF
931.53 kB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/16924