The aim of this thesis is to develop an automated ad hoc classifier of Italian pathology reports in the oncology domain, by creating a hybrid approach that combines NLP and ML techniques. Pathology reports are a primary source of information for cancer registries and are a potentially valuable source of information regarding cancer diagnosis for improving clinical care and supporting research. Given the unstructured nature of pathology reports, specific automatic techniques are required to extract relevant entities from such texts and classify them. In this scenario, Natural Language Processing (NLP) algorithms offers a unique opportunity to automatically encode the unstructured reports into structured data, representing a powerful alternative to expensive manual processing. This thesis developed a similarity-based classifier using the Cosini Similarity measure, in order to classify pathology reports according to the morphology classification schema proposed by the International Classification of Diseases for Oncology (ICD-O-M).

L’obiettivo di questa tesi è quello di sviluppare un classificatore automatico ad hoc di referti italiani di Anatomia Patologica, sfruttando sia tecniche di NLP che tecniche di ML. I referti di Anatomia Patologica sono la fonte principale di informazione per i registri di oncologia che, annualmente, gestiscono un elevato numero di testi inerenti a diagnosi di tumore al fine di migliorare l’intero processo di assistenza clinica e supportare la ricerca. Data la forma non strutturata dei referti di patologia, l’estrazione automatica di entità rilevanti da tali testi e la loro classificazione automatica richiedono l’utilizzo di tecniche specifiche. In questo contesto, i sistemi di Natural Language Processing (NLP) rappresentano un’ottima soluzione per rendere i referti strutturati. In particolare, questo studio presenta un approccio basato sul concetto di similarità dei documenti al fine di classificare i referti di Anatomia Patologica in base alla codificazione della morfologia proposta dall’ International Classification of Diseases for Oncology (ICDO-M)

Automatic classification of pathology reports in Italian language using artificial intelligence techniques

HAMMAMI, LINDA
2018/2019

Abstract

The aim of this thesis is to develop an automated ad hoc classifier of Italian pathology reports in the oncology domain, by creating a hybrid approach that combines NLP and ML techniques. Pathology reports are a primary source of information for cancer registries and are a potentially valuable source of information regarding cancer diagnosis for improving clinical care and supporting research. Given the unstructured nature of pathology reports, specific automatic techniques are required to extract relevant entities from such texts and classify them. In this scenario, Natural Language Processing (NLP) algorithms offers a unique opportunity to automatically encode the unstructured reports into structured data, representing a powerful alternative to expensive manual processing. This thesis developed a similarity-based classifier using the Cosini Similarity measure, in order to classify pathology reports according to the morphology classification schema proposed by the International Classification of Diseases for Oncology (ICD-O-M).
BAILI, PAOLO
PAGLIALONGA, ALESSIA
ING - Scuola di Ingegneria Industriale e dell'Informazione
29-apr-2020
2018/2019
L’obiettivo di questa tesi è quello di sviluppare un classificatore automatico ad hoc di referti italiani di Anatomia Patologica, sfruttando sia tecniche di NLP che tecniche di ML. I referti di Anatomia Patologica sono la fonte principale di informazione per i registri di oncologia che, annualmente, gestiscono un elevato numero di testi inerenti a diagnosi di tumore al fine di migliorare l’intero processo di assistenza clinica e supportare la ricerca. Data la forma non strutturata dei referti di patologia, l’estrazione automatica di entità rilevanti da tali testi e la loro classificazione automatica richiedono l’utilizzo di tecniche specifiche. In questo contesto, i sistemi di Natural Language Processing (NLP) rappresentano un’ottima soluzione per rendere i referti strutturati. In particolare, questo studio presenta un approccio basato sul concetto di similarità dei documenti al fine di classificare i referti di Anatomia Patologica in base alla codificazione della morfologia proposta dall’ International Classification of Diseases for Oncology (ICDO-M)
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
2020_04_HAMMAMI.pdf

solo utenti autorizzati dal 06/04/2021

Descrizione: Testo della tesi
Dimensione 2.34 MB
Formato Adobe PDF
2.34 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/154521