Progettazione e realizzazione di una procedura di integrazione per dati genomici

World-wide consortia are collectors of open genomic data available on the web: these repositories are important enablers of biological research. Moreover, all the datasets produced in the contest of publications in genomics must be deposited to public repositories and made available to the research community so that these data can be used by biologists to validate or enrich their experiments. The content of these experiments is documented by metadata, sets of information which explain the context of the experiment. Contrary to these advantages, metadata structures are not standardized: infact, sources often don't provide a conceptual design for metadata and, when it is available, it is uselessly complex. This thesis, starting from a conceptual model, was designed with the aim to introduce a framework for the integration of genomic metadata extracted from heterogeneous sources in the web. This framework is easily extensible, in order to integrate future repositories or new features. After introducing the conceptual model and the changes made in order to apply it in real cases, we are going to define the framework architecture, highlighting the versatility of the code to provide future extension: finally, we are going to illustrate some real applications, using data repositories such as ENCODE and TCGA.

Molti repository di Open Data di dati genomici, raccolti da consorzi sul web, forniscono dati molto utili per ricerche biologiche o mediche. Questa disponibilità, unita all'obbligo di depositare in repository pubblici tutti i dataset sperimentali usati per dimostrare i risultati di pubblicazioni scientifiche sui genomi, ha permesso di avere a disposizione un ricchissimo insieme di dati pubblici legati alla genomica. In particolare, questi dataset sono fonti preziose sfruttate dai biologi per validare o arricchire i propri esperimenti: il loro contenuto è documentato da metadata, nient'altro che delle informazioni che descrivono il contesto dell'esperimento. Tuttavia, l'enfasi associata al \textit{data sharing} non è corrisposta dall'accuratezza della documentazione dei dati: infatti, i metadati non sono standardizzati tra le diverse sorgenti e spesso sono incompleti o non strutturati. Da questa constatazione ha origine questo lavoro, svoltosi con l'obiettivo di sviluppare, partendo da documentazioni teoriche che si prefiggono la risoluzione dei problemi precedentemente elencati attraverso la definizione di modelli concettuali, un database che collezioni tutti i dati dei maggiori repository presenti in rete e che proponga un unico standard per la rappresentazione dei metadati genomici. Partendo da un modello concettuale, è stato implementato un framework per l'integrazione dei dati genomici facilmente estendibile per futuri repository di interesse e inseribile nel contesto di sviluppo architetturale del progetto Genomic Computic (GeCo). In questa tesi, si intende presentare l'architettura del framework, con particolare enfasi sulla versatilità ed estendibilità, e illustrate alcune tra le principali applicazioni sui repository ENCODE e TCGA.