Since the first reports of coronavirus cases in China and the publication of the first SARS-CoV-2 sequence in 2019, the virus has undergone numerous mutations. Indeed, viruses change when they replicate and spread in a population, and this may give them the ability to infect more efficiently or be recognized less easily by the immune system. Monitoring changes in the genetic code of SARS-CoV-2 allows to model the present status, and predict the near-future evolution of the pandemic. This enables improvements in vaccines, testing, and adapting social distancing measures accordingly. While more than tens of millions of genomic sequences of SARS-CoV-2 are available, their analysis would generally require a significant amount of manual work and engage a huge number of virologists worldwide. Variant Hunter moves toward automating this work. Specifically, the tool analyzes the frequencies of amino acid mutations detected in the sequences over 4-week spans in specific locations, in order to hunt novel emerging variants as early as possible. Variant Hunter mainly supports two types of analysis, namely lineage-independent and lineage-specific analysis. The former has the primary objective of identifying the occurrence of new mutations at regional, national, or continental level. In contrast, the second feature focuses on the sequences of a specific lineage to support the discovery of new sub-lineages. Variant Hunter is based on simple yet effective statistics and visual representations. A Diffusion Heatmap allows to observe the trends in a quick way. The tool also provides Diffusion Trend charts and Odd Ratio plots. The former depict the evolution of the mutation frequencies over time, while the latter provide a direct comparison of the spread over the weeks. Variant Hunter is implemented in the form of a web application that runs in standard browsers. The large amount of data it has to handle have required considerable design effort. Much of the information and intermediate results are pre-computed so as to make a typical analysis running in less than a second on a common computer. Thanks the collaboration of several virologists in different parts of the world, the tool was designed to meet the specific needs of the field. Thus, the simple and intuitive design of Variant Hunter is combined with the high flexibility brought about by the large number of options available. In addition, research institutions also have the possibility to use the tool to analyze restricted-access or other private sequencing data by installing the Docker version. In particular, the latter is rich of configuration options that allow to save time and computational resources. The goodness of the work is also confirmed by the fact that the appearance of a large number of variants could have been easily predicted through the tool’s features.

Dalle prime segnalazioni di casi di coronavirus in Cina e dalla pubblicazione della prima sequenza di SARS-CoV-2 nel 2019, il virus ha subito numerose mutazioni. In generale, i virus cambiano quando si replicano e si diffondono in una popolazione, e questo può dare loro la capacità di infettare in modo più efficiente o di essere riconosciuti meno facilmente dal sistema immunitario. Il monitoraggio dei cambiamenti nel codice genetico del SARS-CoV-2 permette di modellare lo stato attuale e di prevedere l’evoluzione della pandemia. Ciò consente di migliorare i vaccini, i test e di adattare di conseguenza le misure di distanziamento sociale. Sebbene siano disponibili più di decine di milioni di sequenze genomiche del SARS-CoV-2, la loro analisi richiede generalmente una notevole quantità di lavoro manuale e coinvolge un numero considerevole di virologi in tutto il mondo. Variant Hunter mira ad automatizzare questo lavoro. In particolare, lo strumento analizza le frequenze delle mutazioni aminoacide rilevate nelle sequenze nell’arco di 4 settimane in luoghi specifici, al fine di individuare le nuove varianti emergenti il più presto possibile. Variant Hunter supporta principalmente due tipi di analisi: quella lignaggio-indipendente e quella lignaggio-specifica. La prima ha l’obiettivo primario di identificare la presenza di nuove mutazioni a livello regionale, nazionale o continentale. La seconda, invece, si concentra sulle sequenze di uno specifico lignaggio per favorire la scoperta di nuovi sottolignaggi. Variant Hunter si basa su statistiche e rappresentazioni visive semplici ma efficaci. Una heatmap di diffusione permette di osservare le tendenze in modo rapido. Lo strumento fornisce anche grafici del trend di diffusione e di odd ratio. I primi rappresentano l’evoluzione delle frequenze delle mutazioni nel tempo, mentre i secondi forniscono un confronto diretto della diffusione nelle settimane. Variant Hunter è implementato sotto forma di applicazione web. La grande quantità di dati che il sistema deve gestire ha richiesto un notevole sforzo di progettazione. Gran parte delle informazioni e dei risultati intermedi sono precalcolati, in modo da rendere un’analisi tipica eseguibile in meno di un secondo su un comune computer. Grazie alla collaborazione di alcuni virologi in diverse parti del mondo, lo strumento è stato è stato disegnato per soddisfare le esigenze specifiche del settore. Il design semplice e intuitivo di Variant Hunter si combina quindi con l’elevata flessibilità garantita dal gran numero di opzioni disponibili. Inoltre, gli istituti di ricerca hanno anche la possibilità di utilizzare lo strumento per analizzare dati di sequenziamento ad accesso limitato o privati, installando la versione Docker. In particolare, quest’ultima è ricca di opzioni di configurazione che permettono di risparmiare tempo e risorse computazionali. La bontà del lavoro è confermata anche dal fatto che la comparsa di un gran numero di varianti poteva essere facilmente prevista grazie alle caratteristiche dello strumento.

Variant Hunter : a tool for fast detection of emerging SARS-CoV-2 variants

Minotti, Luca
2021/2022

Abstract

Since the first reports of coronavirus cases in China and the publication of the first SARS-CoV-2 sequence in 2019, the virus has undergone numerous mutations. Indeed, viruses change when they replicate and spread in a population, and this may give them the ability to infect more efficiently or be recognized less easily by the immune system. Monitoring changes in the genetic code of SARS-CoV-2 allows to model the present status, and predict the near-future evolution of the pandemic. This enables improvements in vaccines, testing, and adapting social distancing measures accordingly. While more than tens of millions of genomic sequences of SARS-CoV-2 are available, their analysis would generally require a significant amount of manual work and engage a huge number of virologists worldwide. Variant Hunter moves toward automating this work. Specifically, the tool analyzes the frequencies of amino acid mutations detected in the sequences over 4-week spans in specific locations, in order to hunt novel emerging variants as early as possible. Variant Hunter mainly supports two types of analysis, namely lineage-independent and lineage-specific analysis. The former has the primary objective of identifying the occurrence of new mutations at regional, national, or continental level. In contrast, the second feature focuses on the sequences of a specific lineage to support the discovery of new sub-lineages. Variant Hunter is based on simple yet effective statistics and visual representations. A Diffusion Heatmap allows to observe the trends in a quick way. The tool also provides Diffusion Trend charts and Odd Ratio plots. The former depict the evolution of the mutation frequencies over time, while the latter provide a direct comparison of the spread over the weeks. Variant Hunter is implemented in the form of a web application that runs in standard browsers. The large amount of data it has to handle have required considerable design effort. Much of the information and intermediate results are pre-computed so as to make a typical analysis running in less than a second on a common computer. Thanks the collaboration of several virologists in different parts of the world, the tool was designed to meet the specific needs of the field. Thus, the simple and intuitive design of Variant Hunter is combined with the high flexibility brought about by the large number of options available. In addition, research institutions also have the possibility to use the tool to analyze restricted-access or other private sequencing data by installing the Docker version. In particular, the latter is rich of configuration options that allow to save time and computational resources. The goodness of the work is also confirmed by the fact that the appearance of a large number of variants could have been easily predicted through the tool’s features.
BERNASCONI, ANNA
PINOLI, PIETRO
ING - Scuola di Ingegneria Industriale e dell'Informazione
22-lug-2022
2021/2022
Dalle prime segnalazioni di casi di coronavirus in Cina e dalla pubblicazione della prima sequenza di SARS-CoV-2 nel 2019, il virus ha subito numerose mutazioni. In generale, i virus cambiano quando si replicano e si diffondono in una popolazione, e questo può dare loro la capacità di infettare in modo più efficiente o di essere riconosciuti meno facilmente dal sistema immunitario. Il monitoraggio dei cambiamenti nel codice genetico del SARS-CoV-2 permette di modellare lo stato attuale e di prevedere l’evoluzione della pandemia. Ciò consente di migliorare i vaccini, i test e di adattare di conseguenza le misure di distanziamento sociale. Sebbene siano disponibili più di decine di milioni di sequenze genomiche del SARS-CoV-2, la loro analisi richiede generalmente una notevole quantità di lavoro manuale e coinvolge un numero considerevole di virologi in tutto il mondo. Variant Hunter mira ad automatizzare questo lavoro. In particolare, lo strumento analizza le frequenze delle mutazioni aminoacide rilevate nelle sequenze nell’arco di 4 settimane in luoghi specifici, al fine di individuare le nuove varianti emergenti il più presto possibile. Variant Hunter supporta principalmente due tipi di analisi: quella lignaggio-indipendente e quella lignaggio-specifica. La prima ha l’obiettivo primario di identificare la presenza di nuove mutazioni a livello regionale, nazionale o continentale. La seconda, invece, si concentra sulle sequenze di uno specifico lignaggio per favorire la scoperta di nuovi sottolignaggi. Variant Hunter si basa su statistiche e rappresentazioni visive semplici ma efficaci. Una heatmap di diffusione permette di osservare le tendenze in modo rapido. Lo strumento fornisce anche grafici del trend di diffusione e di odd ratio. I primi rappresentano l’evoluzione delle frequenze delle mutazioni nel tempo, mentre i secondi forniscono un confronto diretto della diffusione nelle settimane. Variant Hunter è implementato sotto forma di applicazione web. La grande quantità di dati che il sistema deve gestire ha richiesto un notevole sforzo di progettazione. Gran parte delle informazioni e dei risultati intermedi sono precalcolati, in modo da rendere un’analisi tipica eseguibile in meno di un secondo su un comune computer. Grazie alla collaborazione di alcuni virologi in diverse parti del mondo, lo strumento è stato è stato disegnato per soddisfare le esigenze specifiche del settore. Il design semplice e intuitivo di Variant Hunter si combina quindi con l’elevata flessibilità garantita dal gran numero di opzioni disponibili. Inoltre, gli istituti di ricerca hanno anche la possibilità di utilizzare lo strumento per analizzare dati di sequenziamento ad accesso limitato o privati, installando la versione Docker. In particolare, quest’ultima è ricca di opzioni di configurazione che permettono di risparmiare tempo e risorse computazionali. La bontà del lavoro è confermata anche dal fatto che la comparsa di un gran numero di varianti poteva essere facilmente prevista grazie alle caratteristiche dello strumento.
File allegati
File Dimensione Formato  
Tesina_Luca_Minotti_FINAL.pdf

accessibile in internet per tutti

Descrizione: PDF Tesina (aggiornato al 23/giugno)
Dimensione 8.97 MB
Formato Adobe PDF
8.97 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/190181