In the current biomedical landscape, the digitization of clinical care processes and health services has led to facilities producing and storing a large amount of medical data, much of it in textual nature. These data are a huge asset, but they are not useful until the information within them is extracted using Artificial Intelligence (AI) and Natural Language Processing (NLP) procedures. Although a prevalence of the English language, local administrations and hospitals work in their native language, such as Italian. Therefore, it is also important to have tools that can handle biomedical data in these languages. In particular, concerning the Italian language, there is a lack of freely available data and tools. For example, there are no availableWord Embeddings specializing in the biomedical field. Word Embeddings are commonly utilized as input features to machine/deep learning models, which enables techniques to contextualize raw text data. In this thesis, we propose Word Embeddings for the Italian language specialized in the biomedical field and designed usingWord2vec, a flexible model for semantic representation that can be integrated into other works. Moreover, we also create an Italian-English translator, based on the Transformer architecture, specifically for biomedical text, which can help biomedical researchers and possibly being able to translate data into English in order to use the variety of tools created for it. We test the performance of our Word Embeddings model in capturing the semantic similarities of biomedical terms, using the most popular test datasets translated into Italian. Additionally, our translator is tested on the translation tasks of different test datasets adopted in the previous years in the literature regarding machine translation.

Nel settore biomedico, la digitalizzazione dei processi clinici e dei servizi sanitari ha portato le strutture a produrre e archiviare una grande quantità di dati medici, in gran parte di natura testuale. Questi dati sono un'enorme risorsa, ma non sono utili finché le informazioni al loro interno non vengono estratte con procedure di intelligenza artificiale (AI) e di elaborazione del linguaggio naturale (NLP). Nonostante la prevalenza della lingua inglese, le amministrazioni locali e gli ospedali lavorano nella loro lingua madre, l'italiano nel nostro caso. Pertanto, è importante disporre di strumenti in grado di gestire i dati biomedici in queste lingue. In particolare, per quanto riguarda la lingua italiana, mancano dati e tools liberamente disponibili. Ad esempio, non esistono Word Embeddings specializzati nel settore biomedico. I Word Embeddings sono comunemente utilizzati come input features per i modelli di machine/deep learning, che consentono di contestualizzare i dati di testo grezzi. In questa tesi, proponiamo un Word Embeddings per la lingua italiana specializzato nel settore biomedico e progettato utilizzando Word2vec, un modello flessibile per la rappresentazione semantica che può essere integrato in altri lavori. Inoltre, abbiamo creato anche un traduttore italiano-inglese, basato sull'architettura Transformer, specifico per i testi biomedici, che può aiutare i ricercatori biomedici ed eventualmente essere in grado di tradurre i dati in inglese per utilizzare la varietà di tools creati per essa. Abbiamo testato le prestazioni del nostro modello di Word Embedding, nel cogliere le somiglianze semantiche dei termini biomedici, utilizzando i dataset di test più popolari tradotti in italiano. Inoltre, il nostro traduttore è stato testato sulla traduzione di diversi dataset di test adottati negli anni precedenti nella letteratura sulla traduzione automatica.

Italian word embeddings and machine translation: application in the biomedical field

BAVARO, MARCELLO
2022/2023

Abstract

In the current biomedical landscape, the digitization of clinical care processes and health services has led to facilities producing and storing a large amount of medical data, much of it in textual nature. These data are a huge asset, but they are not useful until the information within them is extracted using Artificial Intelligence (AI) and Natural Language Processing (NLP) procedures. Although a prevalence of the English language, local administrations and hospitals work in their native language, such as Italian. Therefore, it is also important to have tools that can handle biomedical data in these languages. In particular, concerning the Italian language, there is a lack of freely available data and tools. For example, there are no availableWord Embeddings specializing in the biomedical field. Word Embeddings are commonly utilized as input features to machine/deep learning models, which enables techniques to contextualize raw text data. In this thesis, we propose Word Embeddings for the Italian language specialized in the biomedical field and designed usingWord2vec, a flexible model for semantic representation that can be integrated into other works. Moreover, we also create an Italian-English translator, based on the Transformer architecture, specifically for biomedical text, which can help biomedical researchers and possibly being able to translate data into English in order to use the variety of tools created for it. We test the performance of our Word Embeddings model in capturing the semantic similarities of biomedical terms, using the most popular test datasets translated into Italian. Additionally, our translator is tested on the translation tasks of different test datasets adopted in the previous years in the literature regarding machine translation.
DOLCI, TOMMASO
PIANTELLA, DAVIDE
ING - Scuola di Ingegneria Industriale e dell'Informazione
4-mag-2023
2022/2023
Nel settore biomedico, la digitalizzazione dei processi clinici e dei servizi sanitari ha portato le strutture a produrre e archiviare una grande quantità di dati medici, in gran parte di natura testuale. Questi dati sono un'enorme risorsa, ma non sono utili finché le informazioni al loro interno non vengono estratte con procedure di intelligenza artificiale (AI) e di elaborazione del linguaggio naturale (NLP). Nonostante la prevalenza della lingua inglese, le amministrazioni locali e gli ospedali lavorano nella loro lingua madre, l'italiano nel nostro caso. Pertanto, è importante disporre di strumenti in grado di gestire i dati biomedici in queste lingue. In particolare, per quanto riguarda la lingua italiana, mancano dati e tools liberamente disponibili. Ad esempio, non esistono Word Embeddings specializzati nel settore biomedico. I Word Embeddings sono comunemente utilizzati come input features per i modelli di machine/deep learning, che consentono di contestualizzare i dati di testo grezzi. In questa tesi, proponiamo un Word Embeddings per la lingua italiana specializzato nel settore biomedico e progettato utilizzando Word2vec, un modello flessibile per la rappresentazione semantica che può essere integrato in altri lavori. Inoltre, abbiamo creato anche un traduttore italiano-inglese, basato sull'architettura Transformer, specifico per i testi biomedici, che può aiutare i ricercatori biomedici ed eventualmente essere in grado di tradurre i dati in inglese per utilizzare la varietà di tools creati per essa. Abbiamo testato le prestazioni del nostro modello di Word Embedding, nel cogliere le somiglianze semantiche dei termini biomedici, utilizzando i dataset di test più popolari tradotti in italiano. Inoltre, il nostro traduttore è stato testato sulla traduzione di diversi dataset di test adottati negli anni precedenti nella letteratura sulla traduzione automatica.
File allegati
File Dimensione Formato  
2023_05_Bavaro_Executive Summary_02.pdf

solo utenti autorizzati a partire dal 17/04/2026

Descrizione: Thesis
Dimensione 502.01 kB
Formato Adobe PDF
502.01 kB Adobe PDF   Visualizza/Apri
2023_05_Bavaro_Tesi_01.pdf

solo utenti autorizzati a partire dal 17/04/2026

Descrizione: Executive Summary
Dimensione 6.92 MB
Formato Adobe PDF
6.92 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/211244