The purpose of this work is the development of an effective and efficient tool for an intradialysis hypotension events prediction based on pre-session patient-specific parameters. The large clinical database, compiled during the DialysIS Project, allowed a double approach to the problem. Statistical tests (e.g. Kolmogorov-Smirnov, Kruskal-Wallis) have been run to identify attributes able to discern hypotension prone and resistant patients or session with and without hypotension events. Based on previous works and on the results of statistical tests a new index, J5, representing an hypotension risk scale, has been proposed. Simultaneously different machine learning algorithm have been applied (e.g. Random Forest, Artificial Neural Network, Support Vector Machine). Given the unbalanced nature of the analysed dataset different minority class oversampling techniques were also implemented and later compared. In order to reach a comprehensible model, usable in every-day clinical practice, a new Rule Extraction algorithm has been also proposed. It aims to extract a compact set of "if-then-else" rules based on the knowledge learned by the best performing machine learning model (i.e. Support Vector Machine). Despite the absence of a real state of the art for the proposed applications, satisfying accuracies have been reached (e.g. 88:26%+/-2:80 accuracy for SVM model). The lack in literature of similar studies puts this work as an interesting starting point for further improvements.
Questa tesi si propone di sviluppare degli strumenti efficaci, e realmente utilizzabili nella pratica clinica quotidiana, per la predizione di eventi ipotensivi intradialitici. A partire dall'ampio database compilato da attributi paziente specifici (e.g. concentrazioni soluti nel sangue, pressione sistolica e diastolica) contestualmente al progetto DialisIS e dai risultati precedentemente raggiunti all'interno dello progetto stesso, è stato possibile sviluppare il lavoro in due piani distinti. Un'analisi statistica è stata compiuta su due diversi dataset: il primo composto dalle popolazioni di pazienti Hypotension Prone e Hypoten- sion Resistant, il secondo composto invece dalle singole sessioni dialitiche, suddivise in sessioni con e senza eventi ipotensivi. Nel dettaglio l'analisi preliminare tramite il test di normalità di Kolmogorov-Smirnov ha fornito indicazioni relative la tipologia di test per la significatività statistica da applicare (i.e. ANOVA, Kruskal-Wallis). E' stato inoltre proposto un nuovo indice predittivo J5, con l'obiettivo di creare una possibile scala di rischio ipotensivo basata su parametri facilmente accessibili: pressione arteriosa media, incremento ponderale interdialitico e durata del trattamento. L'indice è poi stato valutato in termini di significatività statistica. Contestualmente la ricchezza di dati disponibili ha permesso di affrontare la predizione degli eventi ipotensivi a partire dalle condizioni iniziali del paziente tramite algoritmi di machine learning, considerando un problema di classificazione binaria. Data la scarsa numerosità di studi simili nell'ambito delle complicazioni della terapia dialitica si è deciso di confrontare le performance di tre diversi algoritmi: Random Forest, Artificial Neural Network e Support Vector Machine. Per garantire l'efficacia dei modelli di apprendimento è stato necessario intervenire sul dataset a causa della sua natura sbilanciata: i campioni di interesse (sedute con eventi ipotensivi) costituivano infatti solo il 10% circa del totale. A tale scopo si è deciso di combinare diverse tecniche di oversampling della classe di minoranza e di undersampling della classe di maggioranza, confrontando poi i risultati ottenuti. Vista la natura black-box degli algoritmi di apprendimento implementati si è deciso di effettuare un ulteriore passo, proponendo un nuovo algoritmo di rule extraction in grado di estrarre un set compatto di regole "if-then-else" basato sulla conoscenza appresa dal modello SVM più performante. Tutti i modelli sono stati valutati in termini di accuratezza, sensibilità, sensitività e tramite le curve ROC. La relativa novità del campo di applicazione ha reso difficile l'individuazione di un effettivo gold standard al quale fare riferimento per le valutazioni delle performance. I risultati sono comunque stati considerati come positivi (e.g. 88:26% +/- 2:80% accuratezza per il miglior modello SVM) e come ottimo punto di partenza per i possibili miglioramenti e sviluppi futuri.
STATISTICAL AND DATA MINING ANALYSIS OVER A CLINICAL DATABASE FOR THE PREDICTION OF INTRADIALYSIS HYPOTENSION
GRITTI, STEFANO;CANOVI, ALESSANDRO
2015/2016
Abstract
The purpose of this work is the development of an effective and efficient tool for an intradialysis hypotension events prediction based on pre-session patient-specific parameters. The large clinical database, compiled during the DialysIS Project, allowed a double approach to the problem. Statistical tests (e.g. Kolmogorov-Smirnov, Kruskal-Wallis) have been run to identify attributes able to discern hypotension prone and resistant patients or session with and without hypotension events. Based on previous works and on the results of statistical tests a new index, J5, representing an hypotension risk scale, has been proposed. Simultaneously different machine learning algorithm have been applied (e.g. Random Forest, Artificial Neural Network, Support Vector Machine). Given the unbalanced nature of the analysed dataset different minority class oversampling techniques were also implemented and later compared. In order to reach a comprehensible model, usable in every-day clinical practice, a new Rule Extraction algorithm has been also proposed. It aims to extract a compact set of "if-then-else" rules based on the knowledge learned by the best performing machine learning model (i.e. Support Vector Machine). Despite the absence of a real state of the art for the proposed applications, satisfying accuracies have been reached (e.g. 88:26%+/-2:80 accuracy for SVM model). The lack in literature of similar studies puts this work as an interesting starting point for further improvements.File | Dimensione | Formato | |
---|---|---|---|
2016_07_Gritti_Canovi.pdf
accessibile in internet solo dagli utenti autorizzati
Descrizione: Testo della tesi
Dimensione
2.48 MB
Formato
Adobe PDF
|
2.48 MB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/122364