Each year, more than 300 million surgical procedures worldwide require general anesthesia. However, despite its complexity, this process is still managed manually. Automated closed-loop systems have been investigated to enhance patient well-being and have demonstrated improvements in stability and patient safety. This study presents three Reinforcement Learning (RL) agents for anesthesia control during the maintenance phase, trained and evaluated using a patient simulator we designed to provide an in-simulation environment. The first agent mimics the policy of a Proportional-Integral-Derivative (PID) controller, adjusting the hypnotic agent to regulate the Depth of Hypnosis (DoH) under a fixed hypnotic-to-opioid ratio. The second agent incorporates patient demographic data and removes the fixed ratio assumption. The third agent extends the second agent’s objective by monitoring hemodynamic stability. Using standard control metrics, the RL agents are compared to the PID controller. The first agent demonstrates superior performance in controlling the sedative and the DoH, while the second and third agents perform comparably to the PID controller while managing more complex tasks. Although not explicitly trained to handle disturbances, all agents can compensate for DoH perturbations but struggle with Mean Arterial Pressure deviations. The explainability analysis shows that the policies of the second and third agents align with the Pharmacokinetic and Pharmacodynamic models on which they were trained. These findings suggest that RL offers a promising approach to personalized anesthesia control.
Ogni anno, più di 300 milioni di interventi chirurgici in tutto il mondo richiedono l’anestesia generale. Tuttavia, nonostante la sua complessità, questo processo è ancora gestito manualmente. Per migliorare il benessere del paziente, i sistemi automatizzati ad anello chiuso sono stati esaminati e hanno dimostrato di migliorare la stabilità e la sicurezza del paziente. Questo studio presenta tre agenti di Reinforcement Learning (RL) per il controllo dell’anestesia durante la fase di mantenimento, addestrati e valutati con un simulatore di paziente da noi progettato per fornire un ambiente simulato. Il primo agente imita la politica di un controllore Proporzionale-Integrale-Derivativo (PID), utilizzato come riferimento, regolando l’anestetico per controllare la profondità dell’ipnosi in base a un rapporto fisso tra ipnotico e oppioide. Il secondo agente incorpora i dati demografici del paziente ed elimina il vincolo di un rapporto fisso. Il terzo agente estende l’obiettivo del secondo monitorando anche la stabilità emodinamica. Gli agenti di RL vengono confrontati con il controllore PID utilizzando metriche di controllo standard. Il primo agente dimostra prestazioni superiori nel controllo del sedativo e della profondità dell’ipnosi, mentre il secondo e il terzo agente hanno prestazioni comparabili a quelle del controllore PID, nonostante gestiscano compiti più complessi. Sebbene non siano esplicitamente addestrati per gestire i disturbi, tutti gli agenti sono in grado di compensare le perturbazioni nella profondità dell’ipnosi, ma hanno difficoltà con le deviazioni della pressione arteriosa media. L’analisi di explainability mostra che le politiche del secondo e del terzo agente sono in linea con i modelli farmacocinetici e farmacodinamici su cui sono stati allenati. Questi risultati suggeriscono che RL offre un approccio promettente per il controllo personalizzato dell’anestesia.
Exploring the potential of reinforcement learning for automated anesthesia control
MERLO, MANUELA
2023/2024
Abstract
Each year, more than 300 million surgical procedures worldwide require general anesthesia. However, despite its complexity, this process is still managed manually. Automated closed-loop systems have been investigated to enhance patient well-being and have demonstrated improvements in stability and patient safety. This study presents three Reinforcement Learning (RL) agents for anesthesia control during the maintenance phase, trained and evaluated using a patient simulator we designed to provide an in-simulation environment. The first agent mimics the policy of a Proportional-Integral-Derivative (PID) controller, adjusting the hypnotic agent to regulate the Depth of Hypnosis (DoH) under a fixed hypnotic-to-opioid ratio. The second agent incorporates patient demographic data and removes the fixed ratio assumption. The third agent extends the second agent’s objective by monitoring hemodynamic stability. Using standard control metrics, the RL agents are compared to the PID controller. The first agent demonstrates superior performance in controlling the sedative and the DoH, while the second and third agents perform comparably to the PID controller while managing more complex tasks. Although not explicitly trained to handle disturbances, all agents can compensate for DoH perturbations but struggle with Mean Arterial Pressure deviations. The explainability analysis shows that the policies of the second and third agents align with the Pharmacokinetic and Pharmacodynamic models on which they were trained. These findings suggest that RL offers a promising approach to personalized anesthesia control.File | Dimensione | Formato | |
---|---|---|---|
2025_04_Merlo_Tesi.pdf
accessibile in internet per tutti a partire dal 13/03/2026
Descrizione: Testo Tesi
Dimensione
4.54 MB
Formato
Adobe PDF
|
4.54 MB | Adobe PDF | Visualizza/Apri |
2025_04_Merlo_Executive_summary.pdf
accessibile in internet per tutti a partire dal 13/03/2026
Descrizione: Testo Executive Summury
Dimensione
984.69 kB
Formato
Adobe PDF
|
984.69 kB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/236427