Technologies for DNA sequencing have made incredible steps in the last decade, producing rapidly expanding quantities of various types of genomic data with ever lower costs and faster production times. In particular the Gene Expression Omnibus (GEO) contains more than four million digital samples from functional genomics experiments collected during almost two decades. As a counterpart the huge amount of metadata related to these experiments suffer from redundancy, inconsistency, and incompleteness due to the lack of data structure and validation. The purpose of this work is to create a tool to allow the integration of all metadata contained in GEO, so that these can be used by search systems such as Genosurf. To develop this tool we used the advanced NLP techniques, in particular we used the powerful pretrained trasformer based model GPT2 to extract information from the metadata. We have designed an active learning framework to allow the tool to receive feedback from the users and improve during its use. Finally we have developed a technique to interpret the predictions of the model and applied this interpretation mechanism in our tool to help the user give a correct feedback. The result of our work is the Genomic Metadata Integration tool that we called GeMI.

Le tecnologie per il sequenziamento del DNA hanno fatto passi incredibili nell’ultimo decennio, producendo una quantità in crescente di vari tipi di dati genomici con costi sempre più bassi e tempi di produzione più rapidi. In particolare il Gene Expression Omnibus (GEO) contiene più di quattro milioni di campioni digitali da esperimenti di genomica funzionale raccolti durante quasi due decenni. Come contropartita l’enorme quantità di metadati relativi a questi esperimenti soffre di ridondanza, incoerenza e incompletezza a causa della mancanza di struttura dei dati e di validazione. Lo scopo di questo lavoro è quello di creare un tool per consentire l’integrazione di tutti i metadati contenuti in GEO, in modo che questi possano essere utilizzati da sistemi di ricerca come Genosurf. Per sviluppare questo strumento abbiamo utilizzato le tec- niche NLP avanzate, in particolare abbiamo utilizzato il potente modello pretrainato e basato sui transformer, GPT2, per estrarre informazioni dai metadati. Abbiamo progettato un framework di apprendimento attivo per consentire allo strumento di ricevere feedback dagli utenti e migliorare durante il suo utilizzo. Infine abbiamo sviluppato una tecnica per interpretare le previsioni del modello e applicato questo meccanismo di interpretazione nel nostro tool per aiutare l’utente a dare un feedback corretto. Il risultato del nostro lavoro è lo strumento di integrazione dei metadati genomici che abbiamo chiamato GeMI.

Interactive interface for deep learning based genomic metadata integration

Serna Garcia, Giuseppe
2020/2021

Abstract

Technologies for DNA sequencing have made incredible steps in the last decade, producing rapidly expanding quantities of various types of genomic data with ever lower costs and faster production times. In particular the Gene Expression Omnibus (GEO) contains more than four million digital samples from functional genomics experiments collected during almost two decades. As a counterpart the huge amount of metadata related to these experiments suffer from redundancy, inconsistency, and incompleteness due to the lack of data structure and validation. The purpose of this work is to create a tool to allow the integration of all metadata contained in GEO, so that these can be used by search systems such as Genosurf. To develop this tool we used the advanced NLP techniques, in particular we used the powerful pretrained trasformer based model GPT2 to extract information from the metadata. We have designed an active learning framework to allow the tool to receive feedback from the users and improve during its use. Finally we have developed a technique to interpret the predictions of the model and applied this interpretation mechanism in our tool to help the user give a correct feedback. The result of our work is the Genomic Metadata Integration tool that we called GeMI.
LEONE, MICHELE
ING - Scuola di Ingegneria Industriale e dell'Informazione
9-giu-2021
2020/2021
Le tecnologie per il sequenziamento del DNA hanno fatto passi incredibili nell’ultimo decennio, producendo una quantità in crescente di vari tipi di dati genomici con costi sempre più bassi e tempi di produzione più rapidi. In particolare il Gene Expression Omnibus (GEO) contiene più di quattro milioni di campioni digitali da esperimenti di genomica funzionale raccolti durante quasi due decenni. Come contropartita l’enorme quantità di metadati relativi a questi esperimenti soffre di ridondanza, incoerenza e incompletezza a causa della mancanza di struttura dei dati e di validazione. Lo scopo di questo lavoro è quello di creare un tool per consentire l’integrazione di tutti i metadati contenuti in GEO, in modo che questi possano essere utilizzati da sistemi di ricerca come Genosurf. Per sviluppare questo strumento abbiamo utilizzato le tec- niche NLP avanzate, in particolare abbiamo utilizzato il potente modello pretrainato e basato sui transformer, GPT2, per estrarre informazioni dai metadati. Abbiamo progettato un framework di apprendimento attivo per consentire allo strumento di ricevere feedback dagli utenti e migliorare durante il suo utilizzo. Infine abbiamo sviluppato una tecnica per interpretare le previsioni del modello e applicato questo meccanismo di interpretazione nel nostro tool per aiutare l’utente a dare un feedback corretto. Il risultato del nostro lavoro è lo strumento di integrazione dei metadati genomici che abbiamo chiamato GeMI.
File allegati
File Dimensione Formato  
giuseppe_serna_thesis_finale.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: final thesis
Dimensione 9.04 MB
Formato Adobe PDF
9.04 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/176058