In an era defined by the pervasive flow of digital information, the ability to decipher the complexities of human language is essential. The Dynizer is a transformative tool that converts unstructured data into actionable knowledge. Focused on semantics, it bridges the gap between narrative data and concrete facts, unveiling hidden insights within vast datasets. This thesis studies and explores the Dynizer’s ability of transforming textual data into relational database schemes. More specifically, it studies the Disbiome database, developed at Gent University, a pivotal resource in bioinformatics that offers a comprehensive insight into microbial composition differences between healthy individuals and those with diseases. The thesis examines the contribution of Disbiome in sparking novel hypotheses and discoveries, particularly in elucidating microbial roles in disease etiologies. The exploration within this thesis encompasses the challenges and successes encountered in refining the Dynizer’s capabilities, particularly in content extraction and text-to-ontology matching. Additionally, it explores different avenues enhancing Disbiome’s capabilities, with a specific focus on mapping database elements to the content and the structure of scientific articles. This work aims to establish a robust framework linking the database’s entities with pertinent information extracted from articles, thereby facilitating semi-automatic updates to Disbiome.

In un’era definita da un flusso continuo di informazioni digitali, la capacità di decifrare la complessità del linguaggio umano è essenziale. Il Dynizer è uno strumento che converte dati non strutturati in informazioni sfruttabili. Focalizzato sulla semantica, colma il divario tra dati narrativi e realtà, favorendo l’elaborazione di nuove ipotesi di ricerca celate all’interno di dataset estesi. Questa tesi si propone di studiare ed esplorare la capacità di Dynizer nel trasformare dati testuali in database relazionali. In particolare, studia Disbiome, un database sviluppato presso l’Università di Gent, risorsa fondamentale nel campo della bioinformatica, che offre una visione globale e al contempo approfondita delle differenze nella composizione microbica tra individui sani e malati. La tesi esamina il contributo di Disbiome nell’innescare nuove ipotesi e scoperte, in particolare nel chiarire i ruoli dei diversi microbi nell’eziologia delle malattie. Fulcro di questo lavoro sono soprattutto le sfide e i successi incontrati nel perfezionamento delle abilità analitiche di Dynizer, in particolare nell’estrazione di contenuti e nel confronto testo-ontologia. Si esplorano, inoltre, possibili sviluppi utili a migliorare le capacità di Disbiome, con un’enfasi specifica sulla mappatura, volta ad abbinare gli elementi del database al contenuto e alla struttura degli articoli scientifici. Ciò mira a stabilire un contesto solido che colleghi le entità del database con le relative pertinenti informazioni estratte dagli articoli, facilitando così gli aggiornamenti semi-automatici di Disbiome.

Computational intelligence techniques for semi-automatic content extraction: a case study on handling biomedical journal papers

Radaelli, Marta
2023/2024

Abstract

In an era defined by the pervasive flow of digital information, the ability to decipher the complexities of human language is essential. The Dynizer is a transformative tool that converts unstructured data into actionable knowledge. Focused on semantics, it bridges the gap between narrative data and concrete facts, unveiling hidden insights within vast datasets. This thesis studies and explores the Dynizer’s ability of transforming textual data into relational database schemes. More specifically, it studies the Disbiome database, developed at Gent University, a pivotal resource in bioinformatics that offers a comprehensive insight into microbial composition differences between healthy individuals and those with diseases. The thesis examines the contribution of Disbiome in sparking novel hypotheses and discoveries, particularly in elucidating microbial roles in disease etiologies. The exploration within this thesis encompasses the challenges and successes encountered in refining the Dynizer’s capabilities, particularly in content extraction and text-to-ontology matching. Additionally, it explores different avenues enhancing Disbiome’s capabilities, with a specific focus on mapping database elements to the content and the structure of scientific articles. This work aims to establish a robust framework linking the database’s entities with pertinent information extracted from articles, thereby facilitating semi-automatic updates to Disbiome.
DE TRÉ, GUY
ING - Scuola di Ingegneria Industriale e dell'Informazione
9-apr-2024
2023/2024
In un’era definita da un flusso continuo di informazioni digitali, la capacità di decifrare la complessità del linguaggio umano è essenziale. Il Dynizer è uno strumento che converte dati non strutturati in informazioni sfruttabili. Focalizzato sulla semantica, colma il divario tra dati narrativi e realtà, favorendo l’elaborazione di nuove ipotesi di ricerca celate all’interno di dataset estesi. Questa tesi si propone di studiare ed esplorare la capacità di Dynizer nel trasformare dati testuali in database relazionali. In particolare, studia Disbiome, un database sviluppato presso l’Università di Gent, risorsa fondamentale nel campo della bioinformatica, che offre una visione globale e al contempo approfondita delle differenze nella composizione microbica tra individui sani e malati. La tesi esamina il contributo di Disbiome nell’innescare nuove ipotesi e scoperte, in particolare nel chiarire i ruoli dei diversi microbi nell’eziologia delle malattie. Fulcro di questo lavoro sono soprattutto le sfide e i successi incontrati nel perfezionamento delle abilità analitiche di Dynizer, in particolare nell’estrazione di contenuti e nel confronto testo-ontologia. Si esplorano, inoltre, possibili sviluppi utili a migliorare le capacità di Disbiome, con un’enfasi specifica sulla mappatura, volta ad abbinare gli elementi del database al contenuto e alla struttura degli articoli scientifici. Ciò mira a stabilire un contesto solido che colleghi le entità del database con le relative pertinenti informazioni estratte dagli articoli, facilitando così gli aggiornamenti semi-automatici di Disbiome.
File allegati
File Dimensione Formato  
2024_04_Radaelli_Tesi_01.pdf

solo utenti autorizzati a partire dal 13/03/2027

Descrizione: Testo della tesi
Dimensione 3.85 MB
Formato Adobe PDF
3.85 MB Adobe PDF   Visualizza/Apri
2024_04_Radaelli_Executive Summary_02.pdf

solo utenti autorizzati a partire dal 13/03/2027

Descrizione: Executive summary della tesi
Dimensione 538.89 kB
Formato Adobe PDF
538.89 kB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/219788