Optimizing blood product transfusion strategies in the Intensive Care Unit (ICU) requires balancing the benefits of improved oxygen delivery against significant transfusion-related risks. This problem of sequential, high-stakes decision-making is exceptionally well suited to a Reinforcement Learning (RL) framework. This thesis develops and critically evaluates an RL-based policy that learns a data-driven transfusion strategy from retrospective data, with the objective of improving 90-day survival rates over observed clinical practice. The clinical problem was framed as a Markov Decision Process (MDP) using retrospective data from the MIMIC-IV cohort. Patient states were constructed from a 21-variable clinical feature set and discretized via k-means clustering into state spaces of varying granularity (450, 600, or 750 states). The action space was refined throughout the study, starting with a comprehensive 25-option grid (Red Blood Cell (RBC) and Fresh Frozen Plasma (FFP)) before being simplified to a more focused 3-tier RBC-only model (No, Small, or Large Transfusion) for the main experiments. A policy was learned for each configuration using Policy Iteration. To optimize performance, a series of methodological improvements were tested, including the introduction of a new hemoglobin-informed reward function and the use of Principal Component Analysis (PCA) with 80% and 25% variance retention to refine the state representation. The performance of all learned policies was rigorously benchmarked against the observed clinician baseline via off-policy evaluation (OPE). This was conducted using a bootstrapped Weighted Importance Sampling (WIS) estimator, with the 95% Lower Bound (LB) and the Estimated Mean of the policy value serving as the primary metric for robust policy selection. The results demonstrate that the quality of state representation is the most critical determinant of success. While baseline RL models offered only marginal improvements, policies trained on PCA-reduced state spaces yielded substantial performance gains. The optimal model, utilizing PCA at 80% variance, achieved a 95% LB policy value of 93.69. This policy was associated with an estimated 90-day mortality rate of 4.2%, representing an 87.8% relative reduction from the 34.8% clinician baseline under similar experimental conditions. Model diagnostics confirmed this superior performance corresponded with improved model calibration and enhanced discriminative power of the learned Q-function. This work concludes that a thoughtfully designed RL agent, particularly one that leverages PCA to engineer a robust state representation, can derive a highly effective and reliably evaluated transfusion policy. The resulting methodology offers a validated pathway towards data-driven, personalized transfusion medicine with the potential to substantially improve patient outcomes in the ICU.

L'ottimizzazione delle strategie trasfusionali con emoderivati in Terapia Intensiva (TI) richiede un bilanciamento tra i benefici di una migliore ossigenazione e i significativi rischi legati alla trasfusione. Questo problema, caratterizzato da decisioni sequenziali e ad alto rischio, si adatta eccezionalmente bene a un framework di Apprendimento per Rinforzo (RL). Questa tesi sviluppa e valuta criticamente una politica basata su RL per apprendere una strategia guidata dai dati che migliori la pratica clinica osservata, massimizzando la sopravvivenza a lungo termine (90 giorni) per i pazienti in condizioni critiche. Il problema clinico è stato modellato come un Markov Decision Process (MDP) utilizzando dati retrospettivi della coorte MIMIC-IV. Gli stati dei pazienti sono stati costruiti a partire da un insieme di 21 variabili cliniche e discretizzati tramite clustering k-means in spazi di stato con diversa granularità (450, 600 o 750 stati). Lo spazio delle azioni è stato progressivamente affinato nel corso dello studio: inizialmente con una griglia dettagliata di 25 opzioni (combinazioni di globuli rossi - RBC - e plasma fresco congelato - FFP), successivamente semplificata in un modello RBC-only a tre livelli (Nessuna, Piccola o Grande Trasfusione) per gli esperimenti principali. Per ciascuna configurazione è stata appresa una policy tramite Policy Iteration. Per ottimizzarne le prestazioni, sono stati testati diversi miglioramenti metodologici, tra cui l’introduzione di una nuova funzione di ricompensa basata sull’emoglobina e l’utilizzo dell’Analisi delle Componenti Principali (PCA) con una conservazione della varianza dell’80% e del 25% per raffinare la rappresentazione dello stato. Le performance delle policy apprese sono state rigorosamente confrontate con quelle della baseline clinica osservata tramite valutazione off-policy (OPE), utilizzando un estimatore bootstrappato di Weighted Importance Sampling (WIS). Come metrica principale per la selezione robusta delle policy è stato utilizzato il Lower Bound (LB) al 95% e la media stimata del valore di policy. I risultati dimostrano che la qualità della rappresentazione dello stato è il fattore più critico per il successo. Sebbene i modelli RL di base abbiano portato solo a miglioramenti marginali, le policy addestrate su spazi di stato ridotti tramite PCA hanno mostrato guadagni significativi in termini di performance. Il modello ottimale, che utilizza la PCA con conservazione dell’80% della varianza, ha raggiunto un valore di policy con LB al 95% pari a 93.69. Tale policy è stata associata a un tasso stimato di mortalità a 90 giorni del 4.2%, corrispondente a una riduzione relativa del 87.8% rispetto alla baseline clinica del 34.8%, a parità di condizioni sperimentali. Le analisi diagnostiche del modello hanno confermato che queste prestazioni superiori erano associate a una migliore calibrazione del modello e a un maggiore potere discriminativo della Q-function appresa. In conclusione, questo lavoro dimostra che un agente RL progettato con attenzione – in particolare uno che sfrutta la PCA per costruire una rappresentazione robusta dello stato – è in grado di derivare una strategia di trasfusione altamente efficace e valutata in modo affidabile. La metodologia risultante rappresenta un percorso validato verso una medicina trasfusionale personalizzata e data-driven, con un potenziale impatto rilevante sul miglioramento degli esiti clinici in Terapia Intensiva.

Reinforcement learning for optimal transfusion policies in the intensive care unit

CASALE, CHIARA PIA
2024/2025

Abstract

Optimizing blood product transfusion strategies in the Intensive Care Unit (ICU) requires balancing the benefits of improved oxygen delivery against significant transfusion-related risks. This problem of sequential, high-stakes decision-making is exceptionally well suited to a Reinforcement Learning (RL) framework. This thesis develops and critically evaluates an RL-based policy that learns a data-driven transfusion strategy from retrospective data, with the objective of improving 90-day survival rates over observed clinical practice. The clinical problem was framed as a Markov Decision Process (MDP) using retrospective data from the MIMIC-IV cohort. Patient states were constructed from a 21-variable clinical feature set and discretized via k-means clustering into state spaces of varying granularity (450, 600, or 750 states). The action space was refined throughout the study, starting with a comprehensive 25-option grid (Red Blood Cell (RBC) and Fresh Frozen Plasma (FFP)) before being simplified to a more focused 3-tier RBC-only model (No, Small, or Large Transfusion) for the main experiments. A policy was learned for each configuration using Policy Iteration. To optimize performance, a series of methodological improvements were tested, including the introduction of a new hemoglobin-informed reward function and the use of Principal Component Analysis (PCA) with 80% and 25% variance retention to refine the state representation. The performance of all learned policies was rigorously benchmarked against the observed clinician baseline via off-policy evaluation (OPE). This was conducted using a bootstrapped Weighted Importance Sampling (WIS) estimator, with the 95% Lower Bound (LB) and the Estimated Mean of the policy value serving as the primary metric for robust policy selection. The results demonstrate that the quality of state representation is the most critical determinant of success. While baseline RL models offered only marginal improvements, policies trained on PCA-reduced state spaces yielded substantial performance gains. The optimal model, utilizing PCA at 80% variance, achieved a 95% LB policy value of 93.69. This policy was associated with an estimated 90-day mortality rate of 4.2%, representing an 87.8% relative reduction from the 34.8% clinician baseline under similar experimental conditions. Model diagnostics confirmed this superior performance corresponded with improved model calibration and enhanced discriminative power of the learned Q-function. This work concludes that a thoughtfully designed RL agent, particularly one that leverages PCA to engineer a robust state representation, can derive a highly effective and reliably evaluated transfusion policy. The resulting methodology offers a validated pathway towards data-driven, personalized transfusion medicine with the potential to substantially improve patient outcomes in the ICU.
DRUDI, CRISTIAN
ING - Scuola di Ingegneria Industriale e dell'Informazione
22-lug-2025
2024/2025
L'ottimizzazione delle strategie trasfusionali con emoderivati in Terapia Intensiva (TI) richiede un bilanciamento tra i benefici di una migliore ossigenazione e i significativi rischi legati alla trasfusione. Questo problema, caratterizzato da decisioni sequenziali e ad alto rischio, si adatta eccezionalmente bene a un framework di Apprendimento per Rinforzo (RL). Questa tesi sviluppa e valuta criticamente una politica basata su RL per apprendere una strategia guidata dai dati che migliori la pratica clinica osservata, massimizzando la sopravvivenza a lungo termine (90 giorni) per i pazienti in condizioni critiche. Il problema clinico è stato modellato come un Markov Decision Process (MDP) utilizzando dati retrospettivi della coorte MIMIC-IV. Gli stati dei pazienti sono stati costruiti a partire da un insieme di 21 variabili cliniche e discretizzati tramite clustering k-means in spazi di stato con diversa granularità (450, 600 o 750 stati). Lo spazio delle azioni è stato progressivamente affinato nel corso dello studio: inizialmente con una griglia dettagliata di 25 opzioni (combinazioni di globuli rossi - RBC - e plasma fresco congelato - FFP), successivamente semplificata in un modello RBC-only a tre livelli (Nessuna, Piccola o Grande Trasfusione) per gli esperimenti principali. Per ciascuna configurazione è stata appresa una policy tramite Policy Iteration. Per ottimizzarne le prestazioni, sono stati testati diversi miglioramenti metodologici, tra cui l’introduzione di una nuova funzione di ricompensa basata sull’emoglobina e l’utilizzo dell’Analisi delle Componenti Principali (PCA) con una conservazione della varianza dell’80% e del 25% per raffinare la rappresentazione dello stato. Le performance delle policy apprese sono state rigorosamente confrontate con quelle della baseline clinica osservata tramite valutazione off-policy (OPE), utilizzando un estimatore bootstrappato di Weighted Importance Sampling (WIS). Come metrica principale per la selezione robusta delle policy è stato utilizzato il Lower Bound (LB) al 95% e la media stimata del valore di policy. I risultati dimostrano che la qualità della rappresentazione dello stato è il fattore più critico per il successo. Sebbene i modelli RL di base abbiano portato solo a miglioramenti marginali, le policy addestrate su spazi di stato ridotti tramite PCA hanno mostrato guadagni significativi in termini di performance. Il modello ottimale, che utilizza la PCA con conservazione dell’80% della varianza, ha raggiunto un valore di policy con LB al 95% pari a 93.69. Tale policy è stata associata a un tasso stimato di mortalità a 90 giorni del 4.2%, corrispondente a una riduzione relativa del 87.8% rispetto alla baseline clinica del 34.8%, a parità di condizioni sperimentali. Le analisi diagnostiche del modello hanno confermato che queste prestazioni superiori erano associate a una migliore calibrazione del modello e a un maggiore potere discriminativo della Q-function appresa. In conclusione, questo lavoro dimostra che un agente RL progettato con attenzione – in particolare uno che sfrutta la PCA per costruire una rappresentazione robusta dello stato – è in grado di derivare una strategia di trasfusione altamente efficace e valutata in modo affidabile. La metodologia risultante rappresenta un percorso validato verso una medicina trasfusionale personalizzata e data-driven, con un potenziale impatto rilevante sul miglioramento degli esiti clinici in Terapia Intensiva.
File allegati
File Dimensione Formato  
2025_07_Casale_Tesi_01.pdf

non accessibile

Dimensione 7.43 MB
Formato Adobe PDF
7.43 MB Adobe PDF   Visualizza/Apri
2025_07_Casale_Executive Summary_02.pdf

non accessibile

Dimensione 654.14 kB
Formato Adobe PDF
654.14 kB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/240832