Intensive Care Units (ICUs) are ideal for implementing Patient electronic health records (EHRs) due to the amount of data they must manage, the turnover of patients, the need for reliability, and review processes. With the help of standard classification systems, EHRs are employed to manage Clinical problems and procedures. In this thesis, the main focus was on developing ad hoc machine learning algorithms to classify the semantic content of patient records. In order to create the word vector, four methods were used and compared, including Term Frequency-Inverse Document Frequency, Word2Vec, Doc2Vec, and FastText. The generated vectors were given to the linear and nonlinear support vector machine (SVM), one of the most popular conventional machine learning algorithms, to automatically categorize each patient’s individual diseases into the first level of the ICD-9-CM standard. We applied our algorithm to a dataset of ICU EHRs from MargheritaTre including 10 ICD-9-CM codes. Manipulating nonlinear SVM (RBF kernel) and TF-IDF word representation, we were able to achieve an F1-score of 0.89, a Recall of 0.85, and a Precision of 0.88. Using the state-of-the-art methodology of preprocessing and removing irrelevant information, we were able to outperform other algorithms. Moreover, we overcame language barriers by designing an ad hoc algorithm directly applicable in Italian. Our supervised algorithm also lacks a need for any Italian annotated corpora.

Le unità di terapia intensiva sono ideali per implementare le cartelle cliniche elettroniche (EHR) del paziente a causa della quantità di dati che devono gestire, del turnover dei pazienti, della necessità di affidabilità e dei processi di revisione. Con l'aiuto di sistemi di classificazione standard, le cartelle cliniche elettroniche vengono impiegate per gestire problemi e procedure cliniche. In questa tesi, l'obiettivo principale era lo sviluppo di algoritmi di apprendimento automatico ad hoc per classificare il contenuto semantico delle cartelle dei pazienti. Per creare il vettore di parole, sono stati utilizzati e confrontati quattro metodi, inclusi Term Frequency-Inverse Document Frequency, Word2Vec, Doc2Vec e FastText. I vettori generati sono stati forniti alla macchina del vettore di supporto lineare e non lineare (SVM), uno degli algoritmi di apprendimento automatico convenzionali più popolari, per classificare automaticamente le singole malattie di ciascun paziente nel primo livello dello standard ICD-9-CM. Abbiamo applicato il nostro algoritmo a un set di dati di EHR in terapia intensiva di MargheritaTre inclusi 10 codici ICD-9-CM. Manipolando la rappresentazione di parole SVM (kernel RBF) e TF-IDF non lineare, siamo stati in grado di ottenere un punteggio F1 di 0,89, un Recall di 0,85 e una precisione di 0,88. Utilizzando la metodologia all'avanguardia di preelaborazione e rimozione di informazioni irrilevanti, siamo stati in grado di superare gli altri algoritmi. Inoltre, abbiamo superato le barriere linguistiche progettando un algoritmo ad hoc direttamente applicabile in italiano. Anche il nostro algoritmo supervisionato non ha bisogno di corpora annotati in italiano.

Classification of intensive care unit electronic health records in Italian into ICD-9 for semantic text classification

SAMANDARI, AHMAD
2020/2021

Abstract

Intensive Care Units (ICUs) are ideal for implementing Patient electronic health records (EHRs) due to the amount of data they must manage, the turnover of patients, the need for reliability, and review processes. With the help of standard classification systems, EHRs are employed to manage Clinical problems and procedures. In this thesis, the main focus was on developing ad hoc machine learning algorithms to classify the semantic content of patient records. In order to create the word vector, four methods were used and compared, including Term Frequency-Inverse Document Frequency, Word2Vec, Doc2Vec, and FastText. The generated vectors were given to the linear and nonlinear support vector machine (SVM), one of the most popular conventional machine learning algorithms, to automatically categorize each patient’s individual diseases into the first level of the ICD-9-CM standard. We applied our algorithm to a dataset of ICU EHRs from MargheritaTre including 10 ICD-9-CM codes. Manipulating nonlinear SVM (RBF kernel) and TF-IDF word representation, we were able to achieve an F1-score of 0.89, a Recall of 0.85, and a Precision of 0.88. Using the state-of-the-art methodology of preprocessing and removing irrelevant information, we were able to outperform other algorithms. Moreover, we overcame language barriers by designing an ad hoc algorithm directly applicable in Italian. Our supervised algorithm also lacks a need for any Italian annotated corpora.
PAGLIALONGA, ALESSIA
FINAZZI, STEFANO
ING - Scuola di Ingegneria Industriale e dell'Informazione
28-apr-2022
2020/2021
Le unità di terapia intensiva sono ideali per implementare le cartelle cliniche elettroniche (EHR) del paziente a causa della quantità di dati che devono gestire, del turnover dei pazienti, della necessità di affidabilità e dei processi di revisione. Con l'aiuto di sistemi di classificazione standard, le cartelle cliniche elettroniche vengono impiegate per gestire problemi e procedure cliniche. In questa tesi, l'obiettivo principale era lo sviluppo di algoritmi di apprendimento automatico ad hoc per classificare il contenuto semantico delle cartelle dei pazienti. Per creare il vettore di parole, sono stati utilizzati e confrontati quattro metodi, inclusi Term Frequency-Inverse Document Frequency, Word2Vec, Doc2Vec e FastText. I vettori generati sono stati forniti alla macchina del vettore di supporto lineare e non lineare (SVM), uno degli algoritmi di apprendimento automatico convenzionali più popolari, per classificare automaticamente le singole malattie di ciascun paziente nel primo livello dello standard ICD-9-CM. Abbiamo applicato il nostro algoritmo a un set di dati di EHR in terapia intensiva di MargheritaTre inclusi 10 codici ICD-9-CM. Manipolando la rappresentazione di parole SVM (kernel RBF) e TF-IDF non lineare, siamo stati in grado di ottenere un punteggio F1 di 0,89, un Recall di 0,85 e una precisione di 0,88. Utilizzando la metodologia all'avanguardia di preelaborazione e rimozione di informazioni irrilevanti, siamo stati in grado di superare gli altri algoritmi. Inoltre, abbiamo superato le barriere linguistiche progettando un algoritmo ad hoc direttamente applicabile in italiano. Anche il nostro algoritmo supervisionato non ha bisogno di corpora annotati in italiano.
File allegati
File Dimensione Formato  
2022_04_Samandari_Ahmad.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Thesis
Dimensione 4.4 MB
Formato Adobe PDF
4.4 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/186668