The huge quantity of data available on Internet is an important resource for information searching in diverse fields. To obtain useful information, even in practical aspects of human life, is necessary to set up systems which organise data and put them in specific semantic contexts. For these reasons knowledge bases have been created, which are peculiar databases described by semantic models called ontologies. The knowledge bases are employed in Bioinformatics, discipline that analyses and organizes the data concerning genes and proteins. The Bioinformatics and Web Engineering laboratory of Politecnico di Milano is working on developing of a knowledge base, ground on Genomic and Proteomic Data Warehouse (GPDW), in order to provide a unique resource which integrates data from several biomolecular data banks. GPDW represents a valuable tool useful to searching for heterogeneous biomolecular information by experts and biologists; the main goals of this Thesis work are the design and the development of a web application, suitable to support easily complex queries. This web application is named Genomic and Proteomic Knowledge Base (GPKB) and it is based on a three-levels architecture. Within the data level is present another databases, designed to allow queries recording to users, by graphic interface. The subsequent execution of the queries is another feature of the interface. GPKB allows query specification by the definition of a semantic network, where the user includes the biomolecular entities of their interest. In addition it is possible to refine the obtained results in an iterative way, according to Liquid Query paradigm. Eventually, GPKB is a system usable through Internet even by inexpert users. The next step is to make possible the interoperability with other knowledge bases, by using Semantic Web standards.

La grande quantità di dati disponibile in Internet costituisce un’importante risorsa per la ricerca di informazioni sui più disparati ambiti. Per far si che da questi dati si possano ricavare vere e proprie informazioni utilizzabili anche negli aspetti pratici della vita degli esseri umani, è necessario mettere a punto sistemi che strutturino questi dati, in modo da collocarli in precisi contesti semantici nonché far emergere anche le relazioni esistenti tra i dati stessi. Per questo sono state create le basi di conoscenza, particolari database che includono ontologie che descrivono concetti che i dati contenuti rappresentano. Le basi di conoscenza trovano un’importante applicazione in discipline come la Bioinformatica, il cui scopo principale è quello di organizzare e analizzare i dati relativi a geni e proteine, ottenuti mediante esperimenti biomolecolari. Anche il laboratorio di Bioinformatics and Web Engineering del Politecnico di Milano da anni lavora alla realizzazione di una base di conoscenza integrazionale basata sul Genomic and Proteomic Data Warehouse (GPDW), con lo scopo di fornire un’unica risorsa, che integra dati provenienti da diverse banche dati biomolecolari. GPDW rappresenta una valida risorsa per la ricerca di informazioni biomolecolari eterogenee da parte di esperti e biologi; per questo, gli obiettivi principali di questa Tesi sono progettare e sviluppare un’applicazione web che supporti la possibilità di realizzare in modo semplice interrogazioni, anche complesse, su questa base di conoscenza. Questa applicazione web, chiamata Genomic and Proteomic Knowledge Base (GPKB), è basata su un’architettura a tre livelli, all’interno della quale a livello dei dati è presente un altro database, progettato per permettere agli utenti di memorizzare le proprie query, create tramite l’interfaccia grafica realizzata, e di rieseguirle successivamente. GPKB permette di specificare una query di ricerca in modo grafico, attraverso la defini-zione di una rete semantica, nella quale l’utente include le entità di proprio interesse. Inoltre è possibile affinare i risultati ottenuti in modo iterativo, secondo il paradigma Liquid Query, per la ricerca esplorativa di informazioni che interessano determinati aspetti di più fenomeni biomolecolari. GPKB è un sistema basato sulla conoscenza fruibile attraverso internet anche da utenti meno esperti. Un possibile sviluppo futuro è di rendere GPKB interoperabile con altre basi di conoscenza in rete, attraverso l’impiego degli standard del Semantic Web.

Strumenti e metodologie per la facile interrogazione ed estrazione di conoscenza in un grande data warehouse bioinformatico

GENNARO, STEFANO
2014/2015

Abstract

The huge quantity of data available on Internet is an important resource for information searching in diverse fields. To obtain useful information, even in practical aspects of human life, is necessary to set up systems which organise data and put them in specific semantic contexts. For these reasons knowledge bases have been created, which are peculiar databases described by semantic models called ontologies. The knowledge bases are employed in Bioinformatics, discipline that analyses and organizes the data concerning genes and proteins. The Bioinformatics and Web Engineering laboratory of Politecnico di Milano is working on developing of a knowledge base, ground on Genomic and Proteomic Data Warehouse (GPDW), in order to provide a unique resource which integrates data from several biomolecular data banks. GPDW represents a valuable tool useful to searching for heterogeneous biomolecular information by experts and biologists; the main goals of this Thesis work are the design and the development of a web application, suitable to support easily complex queries. This web application is named Genomic and Proteomic Knowledge Base (GPKB) and it is based on a three-levels architecture. Within the data level is present another databases, designed to allow queries recording to users, by graphic interface. The subsequent execution of the queries is another feature of the interface. GPKB allows query specification by the definition of a semantic network, where the user includes the biomolecular entities of their interest. In addition it is possible to refine the obtained results in an iterative way, according to Liquid Query paradigm. Eventually, GPKB is a system usable through Internet even by inexpert users. The next step is to make possible the interoperability with other knowledge bases, by using Semantic Web standards.
CANAKOGLU, ARIF
ING - Scuola di Ingegneria Industriale e dell'Informazione
29-apr-2015
2014/2015
La grande quantità di dati disponibile in Internet costituisce un’importante risorsa per la ricerca di informazioni sui più disparati ambiti. Per far si che da questi dati si possano ricavare vere e proprie informazioni utilizzabili anche negli aspetti pratici della vita degli esseri umani, è necessario mettere a punto sistemi che strutturino questi dati, in modo da collocarli in precisi contesti semantici nonché far emergere anche le relazioni esistenti tra i dati stessi. Per questo sono state create le basi di conoscenza, particolari database che includono ontologie che descrivono concetti che i dati contenuti rappresentano. Le basi di conoscenza trovano un’importante applicazione in discipline come la Bioinformatica, il cui scopo principale è quello di organizzare e analizzare i dati relativi a geni e proteine, ottenuti mediante esperimenti biomolecolari. Anche il laboratorio di Bioinformatics and Web Engineering del Politecnico di Milano da anni lavora alla realizzazione di una base di conoscenza integrazionale basata sul Genomic and Proteomic Data Warehouse (GPDW), con lo scopo di fornire un’unica risorsa, che integra dati provenienti da diverse banche dati biomolecolari. GPDW rappresenta una valida risorsa per la ricerca di informazioni biomolecolari eterogenee da parte di esperti e biologi; per questo, gli obiettivi principali di questa Tesi sono progettare e sviluppare un’applicazione web che supporti la possibilità di realizzare in modo semplice interrogazioni, anche complesse, su questa base di conoscenza. Questa applicazione web, chiamata Genomic and Proteomic Knowledge Base (GPKB), è basata su un’architettura a tre livelli, all’interno della quale a livello dei dati è presente un altro database, progettato per permettere agli utenti di memorizzare le proprie query, create tramite l’interfaccia grafica realizzata, e di rieseguirle successivamente. GPKB permette di specificare una query di ricerca in modo grafico, attraverso la defini-zione di una rete semantica, nella quale l’utente include le entità di proprio interesse. Inoltre è possibile affinare i risultati ottenuti in modo iterativo, secondo il paradigma Liquid Query, per la ricerca esplorativa di informazioni che interessano determinati aspetti di più fenomeni biomolecolari. GPKB è un sistema basato sulla conoscenza fruibile attraverso internet anche da utenti meno esperti. Un possibile sviluppo futuro è di rendere GPKB interoperabile con altre basi di conoscenza in rete, attraverso l’impiego degli standard del Semantic Web.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
Tesi-STEFANO-GENNARO.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Tesi Stefano Gennaro
Dimensione 2.87 MB
Formato Adobe PDF
2.87 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/107107