Introduction: Sepsis is one of the most burdensome diseases in the intensive care unit (ICU), being the third cause of death worldwide and the first cause of death in hospitals. Optimal treatment strategies are still unknown, indeed, clinicians usually refer to clinical guidelines but they do not allow to tailor a treatment strategy specifically for each patient. Goal: In this study the evaluation of reinforcement learning (RL) techniques is proposed, in order to determine the optimal treatment in terms of intravenous fluids and vasopressors administration for ICU patients with sepsis. Methods: ICU data collected in the publicly available MIMIC-III database are used. The Markov decision process (MDP) was chosen as a model describing patients’ state evolution during the ICU stay. RL techniques based on MDP required the use of clustering methods for the definition of model’s states. However, in many applications the feature space is highly dimensional, and the clustering algorithms may suffer from the curse of dimensionality. Therefore, in this study the effect of applying principal component analysis (PCA) as a dimensionality reduction technique is assessed. Results: PCA causes an improvement of the resulting policy and increases its safety in terms of the 95% confidence lower bound achieving 92.4912 while without this processing step the metric is equal to 86.0051, crucial in applications in which the deployment of a bad policy could cause huge losses. Moreover, the dimensionality reduction also reduces computational cost making possible to estimate clustering 3 times faster when keeping 2 principal components. The improvement of the AI policy is also observed when selecting only a subset of variables linked to the cardiovascular system. This is partly for the dimensionality reduction, but this might suggest that such subset contains important information needed to determine the optimal drug dosages Conclusions: In an environment where the optimal treatment strategy is still unknown and just general clinical guidelines not tailored for every single patient are used, reinforcement learning might be useful to analyze collected data retrospectively and suggest to clinicians the optimal treatment that will improve the patient outcomes, since it is not feasible to design a RCT for every single possible situation in the ICU.

Introduzione: La sepsi è una delle malattie più impattanti nella terapia intensiva, è la terza causa di morte al mondo e la prima causa di morte negli ospedali. La strategia ottimale per affrontare la sepsi rimane sconosciuta, solitamente i medici usano linee guida di pratica clinica, ma quest’ultime non permettono di personalizzare i trattamenti per il singolo paziente. Scopo: In questo studio viene mostrata una valutazione dell’applicazione del reinforcement learning (RL) a questo problema, in modo da ottenere i trattamenti ottimali in termini di dosaggio di fluidi intravenosi e vasopressori Metodi: Sono stati utilizzati i dati di terapia intensiva, disponibili pubblicamente, presenti nel database MIMIC-III. Per costruire il processo decisionale di Markov (MDP) necessario per gli algoritmi di RL viene effettuato il clustering sui dati. Però in molti problemi lo spazio delle variabili ha una dimensione elevata e gli algoritmi di clustering potrebbero soffrire del "curse of dimensionality". A causa di ciò in questo studio viene analizzato l’effetto della analisi delle componenti principali (PCA), una tecnica per ridurre la dimensionalità. Risultati: La PCA causa un miglioramento della policy ottenuta dal RL e aumenta la sicurezza della policy in termini della 95% confidence bound ottenendo 92.4912 mentre senza questo step la metrica si ferma a 86.0051, quest’ultima è cruciale in applicazioni dove l’implementazione di policy subottimali può provocare gravi danni. Inoltre, la riduzione di dimensionalità riduce anche il costo computazionale rendendo possibile la stima di nuove soluzioni di clustering 3 volte più veloce. Il miglioramento della policy dell’AI avviene anche utilizzando solo un sottoinsieme di variabili legate al sistema cardiovascolare. Questo fatto è dovuto parzialmente per la riduzione di dimensionalità, ma potrebbe anche suggerire che questo sottoinsieme specifico di variabili possa contenere importanti informazioni necessarie per determinare i dosaggi ottimali dei farmaci, inoltre queste informazioni potrebbero essere anche espanse estraendo delle features legate al sistema nervoso autonomo dai segnali fisiologici. Conclusioni: In un mondo dove le strategie di cura ottimali sono ancora sconosciute e vengono utlizzate le linee guida cliniche che non sono personalizzate per ogni singolo paziente, il reinforcement learning potrebbe essere utile nell’analisi retrospettiva di dati e suggerire ai medici il farmaco e la dose ottimale che migliorino gli outcome clinici dei pazienti, dato che progettare un RCT per ogni possibile situazione nella terapia intensiva non è fattibile.

Reinforcement learning for the treatment of sepsis in the intensive care unit

Drudi, Cristian
2020/2021

Abstract

Introduction: Sepsis is one of the most burdensome diseases in the intensive care unit (ICU), being the third cause of death worldwide and the first cause of death in hospitals. Optimal treatment strategies are still unknown, indeed, clinicians usually refer to clinical guidelines but they do not allow to tailor a treatment strategy specifically for each patient. Goal: In this study the evaluation of reinforcement learning (RL) techniques is proposed, in order to determine the optimal treatment in terms of intravenous fluids and vasopressors administration for ICU patients with sepsis. Methods: ICU data collected in the publicly available MIMIC-III database are used. The Markov decision process (MDP) was chosen as a model describing patients’ state evolution during the ICU stay. RL techniques based on MDP required the use of clustering methods for the definition of model’s states. However, in many applications the feature space is highly dimensional, and the clustering algorithms may suffer from the curse of dimensionality. Therefore, in this study the effect of applying principal component analysis (PCA) as a dimensionality reduction technique is assessed. Results: PCA causes an improvement of the resulting policy and increases its safety in terms of the 95% confidence lower bound achieving 92.4912 while without this processing step the metric is equal to 86.0051, crucial in applications in which the deployment of a bad policy could cause huge losses. Moreover, the dimensionality reduction also reduces computational cost making possible to estimate clustering 3 times faster when keeping 2 principal components. The improvement of the AI policy is also observed when selecting only a subset of variables linked to the cardiovascular system. This is partly for the dimensionality reduction, but this might suggest that such subset contains important information needed to determine the optimal drug dosages Conclusions: In an environment where the optimal treatment strategy is still unknown and just general clinical guidelines not tailored for every single patient are used, reinforcement learning might be useful to analyze collected data retrospectively and suggest to clinicians the optimal treatment that will improve the patient outcomes, since it is not feasible to design a RCT for every single possible situation in the ICU.
LEHMAN, LI-WEI
MOLLURA, MAXIMILIANO
ING - Scuola di Ingegneria Industriale e dell'Informazione
28-apr-2022
2020/2021
Introduzione: La sepsi è una delle malattie più impattanti nella terapia intensiva, è la terza causa di morte al mondo e la prima causa di morte negli ospedali. La strategia ottimale per affrontare la sepsi rimane sconosciuta, solitamente i medici usano linee guida di pratica clinica, ma quest’ultime non permettono di personalizzare i trattamenti per il singolo paziente. Scopo: In questo studio viene mostrata una valutazione dell’applicazione del reinforcement learning (RL) a questo problema, in modo da ottenere i trattamenti ottimali in termini di dosaggio di fluidi intravenosi e vasopressori Metodi: Sono stati utilizzati i dati di terapia intensiva, disponibili pubblicamente, presenti nel database MIMIC-III. Per costruire il processo decisionale di Markov (MDP) necessario per gli algoritmi di RL viene effettuato il clustering sui dati. Però in molti problemi lo spazio delle variabili ha una dimensione elevata e gli algoritmi di clustering potrebbero soffrire del "curse of dimensionality". A causa di ciò in questo studio viene analizzato l’effetto della analisi delle componenti principali (PCA), una tecnica per ridurre la dimensionalità. Risultati: La PCA causa un miglioramento della policy ottenuta dal RL e aumenta la sicurezza della policy in termini della 95% confidence bound ottenendo 92.4912 mentre senza questo step la metrica si ferma a 86.0051, quest’ultima è cruciale in applicazioni dove l’implementazione di policy subottimali può provocare gravi danni. Inoltre, la riduzione di dimensionalità riduce anche il costo computazionale rendendo possibile la stima di nuove soluzioni di clustering 3 volte più veloce. Il miglioramento della policy dell’AI avviene anche utilizzando solo un sottoinsieme di variabili legate al sistema cardiovascolare. Questo fatto è dovuto parzialmente per la riduzione di dimensionalità, ma potrebbe anche suggerire che questo sottoinsieme specifico di variabili possa contenere importanti informazioni necessarie per determinare i dosaggi ottimali dei farmaci, inoltre queste informazioni potrebbero essere anche espanse estraendo delle features legate al sistema nervoso autonomo dai segnali fisiologici. Conclusioni: In un mondo dove le strategie di cura ottimali sono ancora sconosciute e vengono utlizzate le linee guida cliniche che non sono personalizzate per ogni singolo paziente, il reinforcement learning potrebbe essere utile nell’analisi retrospettiva di dati e suggerire ai medici il farmaco e la dose ottimale che migliorino gli outcome clinici dei pazienti, dato che progettare un RCT per ogni possibile situazione nella terapia intensiva non è fattibile.
File allegati
File Dimensione Formato  
2022_04_Drudi_01.pdf

non accessibile

Descrizione: Tesi
Dimensione 3.39 MB
Formato Adobe PDF
3.39 MB Adobe PDF   Visualizza/Apri
2022_04_Drudi_02.pdf

non accessibile

Descrizione: Executive Summary
Dimensione 504.71 kB
Formato Adobe PDF
504.71 kB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/187918