To the present date, since the beginning of the pandemic, more than one million studies have been published on COVID-19, the disease associated with the SARS-CoV-2 virus. Many of these studies are collected in CORD-19, a corpus created to accelerate the research against the disease. However, unstructured data, such as texts written in natural languages, require the development of particular techniques to be made usable and accessible. For this reason we designed and developed three methods to explore the literature included in CORD-19: search by keywords, search by similarity of content and citations, and search by similarity with graphs. In this thesis we show how these methods are exploited in two different projects. In particular, the two searches by keywords and by similarity of content enable the functioning of CoVEffect, a semi-automated framework for training neural networks that are able to extract descriptions of the effects of SARS-CoV-2 mutations from text. The graph-driven search is at the basis for AGAVE, a system in which it is possible to express a research hypothesis through "graphical abstract", i.e. a small graph formed by concepts connected by relations, which synthetically describes a research hypothesis. AGAVE compares this small graph with a semantic network that includes all the information available in CORD-19, enriched with a medical ontology. After this comparison, AGAVE extracts a list of publications that deal with the topics expressed in the graph. This system allows to explore the literature related to COVID-19 in a simple and powerful way.

Ad oggi, dall'inizio della pandemia, sono stati pubblicati più di un milione di studi sul COVID-19, la malattia associata al virus SARS-CoV-2. Molti di questi studi sono raccolti in CORD-19, un corpus nato per accelerare la ricerca contro la malattia. Tuttavia, i dati non strutturati, come i testi scritti in linguaggi naturali, richiedono lo sviluppo di tecniche particolari per essere resi fruibili ed accessibili. Per questo motivo ho progettato e sviluppato tre metodi per esplorare la letteratura inclusa in CORD-19: la ricerca tramite parole chiave, la ricerca per similarità di contenuti e citazioni, e la ricerca per similarità con grafi. In questa tesi si mostra poi come questi metodi siano sfruttati in due diversi progetti. In particolare, le due ricerche per parole chiave e per similarità abilitano il funzionamento di CoVEffect, un framework semi-automatico per l'addestramento di reti neurali capaci di estrarre descrizioni degli effetti delle mutazioni di SARS-CoV-2. La ricerca tramite grafi è alla base di AGAVE, un sistema in cui è possibile esprimere un'ipotesi di ricerca tramite "graphical abstract", ossia un piccolo grafo formato da concetti connessi da relazioni, che descrive sinteticamente una ipotesi di ricerca. AGAVE confronta questo grafo con una rete semantica che rappresenta tutta l'informazione presente in CORD-19, arricchita tramite un'ontologia medica. Da questo confronto viene estratto un elenco di pubblicazioni che trattano gli argomenti espressi nel grafo. Questo sistema permette di esplorare in modo semplice e potente la letteratura relativa al COVID-19.

Exploring and searching the CORD-19 big data corpus for supporting COVID-19 research

Invernici, Francesco
2021/2022

Abstract

To the present date, since the beginning of the pandemic, more than one million studies have been published on COVID-19, the disease associated with the SARS-CoV-2 virus. Many of these studies are collected in CORD-19, a corpus created to accelerate the research against the disease. However, unstructured data, such as texts written in natural languages, require the development of particular techniques to be made usable and accessible. For this reason we designed and developed three methods to explore the literature included in CORD-19: search by keywords, search by similarity of content and citations, and search by similarity with graphs. In this thesis we show how these methods are exploited in two different projects. In particular, the two searches by keywords and by similarity of content enable the functioning of CoVEffect, a semi-automated framework for training neural networks that are able to extract descriptions of the effects of SARS-CoV-2 mutations from text. The graph-driven search is at the basis for AGAVE, a system in which it is possible to express a research hypothesis through "graphical abstract", i.e. a small graph formed by concepts connected by relations, which synthetically describes a research hypothesis. AGAVE compares this small graph with a semantic network that includes all the information available in CORD-19, enriched with a medical ontology. After this comparison, AGAVE extracts a list of publications that deal with the topics expressed in the graph. This system allows to explore the literature related to COVID-19 in a simple and powerful way.
BERNASCONI, ANNA
ING - Scuola di Ingegneria Industriale e dell'Informazione
20-dic-2022
2021/2022
Ad oggi, dall'inizio della pandemia, sono stati pubblicati più di un milione di studi sul COVID-19, la malattia associata al virus SARS-CoV-2. Molti di questi studi sono raccolti in CORD-19, un corpus nato per accelerare la ricerca contro la malattia. Tuttavia, i dati non strutturati, come i testi scritti in linguaggi naturali, richiedono lo sviluppo di tecniche particolari per essere resi fruibili ed accessibili. Per questo motivo ho progettato e sviluppato tre metodi per esplorare la letteratura inclusa in CORD-19: la ricerca tramite parole chiave, la ricerca per similarità di contenuti e citazioni, e la ricerca per similarità con grafi. In questa tesi si mostra poi come questi metodi siano sfruttati in due diversi progetti. In particolare, le due ricerche per parole chiave e per similarità abilitano il funzionamento di CoVEffect, un framework semi-automatico per l'addestramento di reti neurali capaci di estrarre descrizioni degli effetti delle mutazioni di SARS-CoV-2. La ricerca tramite grafi è alla base di AGAVE, un sistema in cui è possibile esprimere un'ipotesi di ricerca tramite "graphical abstract", ossia un piccolo grafo formato da concetti connessi da relazioni, che descrive sinteticamente una ipotesi di ricerca. AGAVE confronta questo grafo con una rete semantica che rappresenta tutta l'informazione presente in CORD-19, arricchita tramite un'ontologia medica. Da questo confronto viene estratto un elenco di pubblicazioni che trattano gli argomenti espressi nel grafo. Questo sistema permette di esplorare in modo semplice e potente la letteratura relativa al COVID-19.
File allegati
File Dimensione Formato  
2022_12_Invernici.pdf

embargo fino al 30/11/2025

Descrizione: Documento di Tesi
Dimensione 14.26 MB
Formato Adobe PDF
14.26 MB Adobe PDF   Visualizza/Apri
2022_12_Invernici_Executive_Summary.pdf

embargo fino al 30/11/2025

Descrizione: Executive Summary
Dimensione 3.02 MB
Formato Adobe PDF
3.02 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/201401