In recent years deep meta-reinforcement learning has extended the applicability of reinforcement learning (RL) algorithms: by integrating recurrent networks, trained models have the ability to quickly adapt to new unseen environments without the need for further backpropagation. These models, however, cannot adapt without having information on past rewards, and are therefore not directly applicable to a sequential decision-making setting in which multiple steps are required before observing the final reward. One of the main applications affected by this limitation are dynamic treatment regimes, i.e. the problem of selecting the optimal medical treatment sequence for a patient at each step, keeping into account the complete past treatment history. By expanding deep meta-reinforcement learning to handle sequential decisions, a model would be able to prescribe the optimal treatment for each patient even if the patient’s (or physician’s) preferences on the outcome were never encountered by the model in training. We propose a recursive deep meta-reinforcement learning approach which enables the model of each decision of the sequential process to learn from and adapt to unseen circumstances by recursively integrating the feedback of the models of other decisions in the process. We evaluate our approach on synthetic two-step processes with fixed transition probabilities but varying reward functions, to test the models’ ability to propagate environment information from the final reward to intermediate steps. Finally, we train our model on a dataset of three-step chemo-radiotherapeutic and surgical treatment of oropharyngeal squamous cell carcinoma patients, proving our approach’s ability to optimally handle previously unseen patient’s preferences on survival and toxicity outcomes.

Negli ultimi anni l’introduzione di algoritmi di deep meta-Reinforcement Learning ha esteso l’applicabilità dei modelli di Reinforcement Learning (RL): integrando reti neurali ricorrenti nell’architettura, questi modelli sono in grado di adattarsi rapidamente a nuove circostanze diverse da quelle osservate in precedenza, senza bisogno di una nuova fase di training. Le capacità di adattamento di tali modelli sono però strettamente dipendenti dall’informazione sui premi passati, quindi tali algoritmi non sono direttamente applicabili in contesti in cui un modello necessita una sequenza fissa di azioni prima di ottenere il premio finale. Una delle possibili applicazioni affette da tale limitazione è quella dei “dynamic treatment regimes", ovvero il problema della scelta per ogni paziente della sequenza terapeutica ottimale, basandosi sulla storia clinica completa del paziente. L’espansione del deep meta-Reinforcement Learning per l’applicabilità a sequenze di decisioni permetterebbe di creare modelli capaci di prescrivere la terapia ottimale per ogni paziente per qualsiasi preferenza del paziente (o del medico curante) sull’esito della terapia, senza il bisogno di fissare tali preferenze nella fase di training. In questo testo presentiamo un approccio ricorsivo al deep meta-Reinforcement Learning, che permette ai modelli di ogni decisione della sequenza di apprendere dalle circostanze tramite il feedback ricorsivo di altri modelli nella sequenza, anche quando non è disponibile un premio immediato. Valutiamo tale approccio prima di tutto studiando la performance dei modelli in un contesto composto da una sequenza di due decisioni distinte, in cui le probabilità di transizione sono mantenute fisse, ma le probabilità di premio variano nel tempo. Questo problema sintetico ci permette di valutare la capacità del nostro approccio di propagare informazioni sul premio finale anche ai modelli di decisioni intermedie. Infine, applichiamo i nostri modelli a un dataset di terapie in tre step di carcinoma squamocellulare orofaringeo, dimostrando l’abilità del nostro approccio di gestire in maniera ottimale varie preferenze di pazienti in termini di sopravvivenza e tossicità.

RSMRL : a deep meta-reinforcement learning approach for personalized sequential dynamic treatment policies

TARDINI, ELISA
2020/2021

Abstract

In recent years deep meta-reinforcement learning has extended the applicability of reinforcement learning (RL) algorithms: by integrating recurrent networks, trained models have the ability to quickly adapt to new unseen environments without the need for further backpropagation. These models, however, cannot adapt without having information on past rewards, and are therefore not directly applicable to a sequential decision-making setting in which multiple steps are required before observing the final reward. One of the main applications affected by this limitation are dynamic treatment regimes, i.e. the problem of selecting the optimal medical treatment sequence for a patient at each step, keeping into account the complete past treatment history. By expanding deep meta-reinforcement learning to handle sequential decisions, a model would be able to prescribe the optimal treatment for each patient even if the patient’s (or physician’s) preferences on the outcome were never encountered by the model in training. We propose a recursive deep meta-reinforcement learning approach which enables the model of each decision of the sequential process to learn from and adapt to unseen circumstances by recursively integrating the feedback of the models of other decisions in the process. We evaluate our approach on synthetic two-step processes with fixed transition probabilities but varying reward functions, to test the models’ ability to propagate environment information from the final reward to intermediate steps. Finally, we train our model on a dataset of three-step chemo-radiotherapeutic and surgical treatment of oropharyngeal squamous cell carcinoma patients, proving our approach’s ability to optimally handle previously unseen patient’s preferences on survival and toxicity outcomes.
ZHANG, XINHUA
ING - Scuola di Ingegneria Industriale e dell'Informazione
28-apr-2021
2020/2021
Negli ultimi anni l’introduzione di algoritmi di deep meta-Reinforcement Learning ha esteso l’applicabilità dei modelli di Reinforcement Learning (RL): integrando reti neurali ricorrenti nell’architettura, questi modelli sono in grado di adattarsi rapidamente a nuove circostanze diverse da quelle osservate in precedenza, senza bisogno di una nuova fase di training. Le capacità di adattamento di tali modelli sono però strettamente dipendenti dall’informazione sui premi passati, quindi tali algoritmi non sono direttamente applicabili in contesti in cui un modello necessita una sequenza fissa di azioni prima di ottenere il premio finale. Una delle possibili applicazioni affette da tale limitazione è quella dei “dynamic treatment regimes", ovvero il problema della scelta per ogni paziente della sequenza terapeutica ottimale, basandosi sulla storia clinica completa del paziente. L’espansione del deep meta-Reinforcement Learning per l’applicabilità a sequenze di decisioni permetterebbe di creare modelli capaci di prescrivere la terapia ottimale per ogni paziente per qualsiasi preferenza del paziente (o del medico curante) sull’esito della terapia, senza il bisogno di fissare tali preferenze nella fase di training. In questo testo presentiamo un approccio ricorsivo al deep meta-Reinforcement Learning, che permette ai modelli di ogni decisione della sequenza di apprendere dalle circostanze tramite il feedback ricorsivo di altri modelli nella sequenza, anche quando non è disponibile un premio immediato. Valutiamo tale approccio prima di tutto studiando la performance dei modelli in un contesto composto da una sequenza di due decisioni distinte, in cui le probabilità di transizione sono mantenute fisse, ma le probabilità di premio variano nel tempo. Questo problema sintetico ci permette di valutare la capacità del nostro approccio di propagare informazioni sul premio finale anche ai modelli di decisioni intermedie. Infine, applichiamo i nostri modelli a un dataset di terapie in tre step di carcinoma squamocellulare orofaringeo, dimostrando l’abilità del nostro approccio di gestire in maniera ottimale varie preferenze di pazienti in termini di sopravvivenza e tossicità.
File allegati
File Dimensione Formato  
Tardini_Tesi_PoliMi.pdf

solo utenti autorizzati dal 01/04/2022

Dimensione 2.9 MB
Formato Adobe PDF
2.9 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/175723