Automatic data integration for genomic metadata through sequence-to-sequence models

While exponential growth in public genomics data can afford great insights into biological processes underlying diseases, a lack of structured metadata often impedes its timely discovery for analysis. In the Gene Expression Omnibus, for example, descriptions of genomic samples lack structure, with different terminology (such as “breast cancer”,“breast tumor”, and “malignant neoplasm of breast”) used to express the same concept. To remedy this, two models were learnt to extract salient information from this textual metadata. Rather than treating the problem as classification or named entity recognition, it has been modeled as machine translation, leveraging state-of-the-art sequence-to-sequence (seq2seq) models to directly map unstructured input into a structured text format. The application of such models greatly simplifies training and allows for imputation of output fields that are implied but never explicitly mentioned in the input text. Two types of seq2seq models have been experimented: an LSTM with attention and a transformer (in particular GPT-2), noting that the latter out-performs a multi-label classification approach, also using a transformer architecture (RoBERTa). The GPT-2 model showed a surprising ability to predict attributes with a large set of possible values, often inferring the correct value for unmentioned attributes. The models were evaluated in both homogeneous and heterogeneous training/testing environments,indicating the efficacy of the transformer-based seq2seq approach for real data integration applications.

Nonostante la crescita esponenziale di archivi pubblici di dati genomici possa facilitare il processo di scoperta di fattori genomici che determinano malattie, la mancanza di una struttura nei metadati spesso agisce da freno. Gene Expression Omnibus, per esempio, raccoglie descrizioni di campioni genomici che mancano di struttura, presentando spesso diverse terminologie per indicare lo stesso concetto (“Breast cancer”, “Breast tumor”, “malignant neoplasm of breast” ecc.). Per far fronte a questo problema, questa tesi presenta la sperimentazione di modelli basati su reti neurali che, attraverso il Machine Learning, estraggono l’informazione rilevante dalla descrizione testuale di campioni. Invece di trattare il problema come classificazione o Named Entity Recognition, questo ´e stato modellato come Machine Translation, utilizzando lo stato dell’arte dei modelli Sequence-to-Sequence (seq2seq) per mappare direttamente il testo d’ingresso - privo di struttura - ad un formato di testo strutturato. L’uso dei suddetti modelli semplifica enormemente la fase di training e permette l’identificazione di campi d’uscita che erano deducibili, ma mai esplicitati nel testo d’ingresso. Due tipi di modelli di traduzione sono stati sperimentati: una rete neurale basata sulla struttura Encoder-Decoder che sfrutta LSTM e il meccanismo di attenzione; e un modello basato sulle celle Transformer (nello specifico il GPT-2); notando come quest’ultimo sia in grado di superare le performances di un classificatore multi-label, anch’esso basato sui Transformers (RoBERTa) . Il GPT-2 ha mostrato capacità soprendenti nel predire attributi con una vasta gamma di possibili valori, spesso inferendo il valore corretto da altri attributi non specificati nel testo d’ingresso. I modelli sono stati valutati in ambienti di allenamento/test sia omogenei che eterogenei, denotando l’efficacia del modello seq2seq basato sui transformers in reali applicazioni di integrazione di dati.