Knowledge modeling and data analysis methods for understanding the viral genome evolution

Embarking on an exploration of unparalleled depth into the intricacies of SARS-CoV-2 during the COVID-19 pandemic, this research represents a significant contribution to global health comprehension through the lens of two overarching fields of study: I) Viral data modeling and management and II) Data-driven large-scale viral sequences analysis. In Part I, the main focus is on knowledge modeling, emphasizing the knowledge extraction from scientific literature (based on deep learning) and its ontological representation. A careful study of the domain was performed to address three critical issues that arose during the pandemic and to suggest proper solutions for such issues: 1) Information quality concerns, tackled through the development of the CoV2K model, which extracts information from multiple resources, transforms it, and makes it accessible via a RESTful API. 2) The overwhelming volume of data in the scientific literature, handled through CoVEffect, which predicts the effects of mutations and variants in ∼ 7,000 scientific publications’ abstracts using a GPT-2 prediction model specifically trained to solve such a complex task. 3) The domain’s complexity, addressed by the development of OntoEffect, an OntoUML-based ontology explaining the effects of SARS-CoV-2 variants, which offers clear and precise domain explanations provided via ontological unpacking methods. In Part II, the main focus is on understanding different aspects of viral evolution using data-driven large-scale genomic analysis. Specifically, I first employed robust statistical methods to identify different genetic phenomena, e.g., co-occurring and mutually exclusive pairs of mutations. Then, I extended the study to the evolutionary events within viral lineages, shedding light on the virus’s adaptive mechanisms. Second, I studied the conservancy of specific small regions of viral proteins called epitopes, which can provoke the host immune system response. A mutation on an epitope range might affect its recognition, possibly empowering an immune escape variant. To investigate this aspect, I presented several use cases employing the EpiSurf tool, a metadata-driven search server for analyzing mutations on epitopes of viral species. Moreover, I performed a database-wide study on Omicron – the most complete "escapee" variant of SARS-CoV-2 – as a case study to reveal critical insights into its subvariants, their characteristic mutations, and their potential implications on immune evasion, enhancing our comprehension of this important variant. All in all, these research outcomes provide valuable resources and knowledge for the ongoing battle against COVID-19, paving the way to their extension for fighting future pandemics caused by the same or other pathogens.

Esplorando in grande profondità le complessità della SARS-CoV-2 durante la pandemia COVID-19, questa ricerca rappresenta un contributo significativo alla comprensione della salute globale attraverso due vaste aree di studio: I) la modellazione e gestione dei dati virali e II) l’analisi di sequenze virali su larga scala guidata dai dati. Nella Parte I, l'attenzione si concentra sulla modellazione della conoscenza, sottolineando l'estrazione della conoscenza dalla letteratura scientifica (basata sul deep learning) e la sua rappresentazione ontologica. È stato effettuato un attento studio del dominio per affrontare tre questioni critiche emerse durante la pandemia e per suggerire soluzioni adeguate a tre tematiche: 1) Problemi di qualità delle informazioni, affrontati attraverso lo sviluppo del modello CoV2K, che estrae le informazioni da più risorse, le trasforma e le rende accessibili tramite una API RESTful. 2) L'enorme mole di dati presenti nella letteratura scientifica, gestita attraverso CoVEffect, che predice gli effetti di mutazioni e varianti in circa 7.000 abstract di pubblicazioni scientifiche utilizzando un modello di predizione GPT-2 specificamente addestrato per risolvere un compito complesso. 3) La complessità del dominio, affrontata con lo sviluppo di OntoEffect, un'ontologia basata su OntoUML che spiega gli effetti delle varianti della SARS-CoV-2, offrendo spiegazioni chiare e precise del dominio fornite tramite metodi di unpacking ontologico. Nella Parte II, l'attenzione principale è rivolta alla comprensione di diversi aspetti dell'evoluzione virale utilizzando l'analisi genomica su larga scala guidata dai dati. In particolare, si sono dapprima impiegati metodi statistici robusti per identificare diversi fenomeni genetici (ad esempio coppie di mutazioni co-occorrenti e mutuamente esclusive). Poi, si è esteso lo studio agli eventi evolutivi all'interno dei lignaggi virali, identificando meccanismi di adattamento del virus. In secondo luogo, si è studiata la conservazione di piccole regioni specifiche delle proteine virali, chiamate epitopi, che possono provocare la risposta del sistema immunitario dell'ospite. Una mutazione su un intervallo di epitopi potrebbe influenzare il suo riconoscimento, potenziando eventualmente una variante che evade il sistema immunitario. Per indagare su questo aspetto, si sono presentati diversi casi d'uso utilizzando lo strumento EpiSurf, un server di ricerca guidato da metadati per analizzare le mutazioni sugli epitopi delle specie virali. Infine, si è eseguito uno studio a livello di database su Omicron - la variante più completa di SARS-CoV-2 - per rivelare approfondimenti critici sulle sue sottovarianti, le loro mutazioni caratteristiche e le loro potenziali implicazioni sull'evasione immunitaria, migliorando la comprensione generale di questa importante variante. Nel complesso, i risultati di questa tesi forniscono risorse e conoscenze preziose per la lotta in corso contro il COVID-19, aprendo la strada alla loro estensione per combattere future pandemie causate anche da altri agenti patogeni.