Towards superhuman imitation learning for sequential head-and-neck cancer treatment decision

Head and neck cancer (HNC) treatment requires complex, multistage clinical decisions that evolve with the patient’s condition, typically spanning definitive surgery, induction chemotherapy, and radiotherapy or chemoradiotherapy. Designing such dynamic treatment regimes remains challenging, as decisions must integrate heterogeneous patient information, clinical guidelines, and physician expertise. This work introduces \textit{Superhuman Policy Gradient Optimization (SPGO)}, a simulation-driven imitation-learning framework that moves beyond direct replication of expert behavior toward outcome-oriented policy improvement. The proposed approach models the therapeutic pathway using three neural policy networks interacting with a generative clinical environment that reproduces patient trajectories and longitudinal symptom evolution. Training follows a policy-gradient formulation inspired by inverse reinforcement learning, where a subdominance loss serves as a multi-objective reward that encourages the learned policy to match or surpass physician outcomes across multiple clinical features. Adaptive feature-wise coefficients dynamically adjust learning pressure, enabling the policy to focus on harder clinical endpoints without requiring handcrafted scalar rewards. Experimental evaluation demonstrates that SPGO maintains realistic short-term treatment decisions while improving long-term toxicity and relapse-related outcomes under simulated rollouts. These results suggest that dominance-aware policy gradients provide a principled bridge between imitation learning and reinforcement learning, offering a reproducible and interpretable framework for sequential treatment optimization in oncology.

Il trattamento del tumore della testa e del collo (HNC) richiede decisioni cliniche complesse e articolate in più fasi, che evolvono con la condizione del paziente e che tipicamente comprendono chirurgia definitiva, chemioterapia di induzione e radioterapia o chemioradioterapia. La progettazione di tali regimi terapeutici dinamici rimane una sfida, poiché le decisioni devono integrare informazioni eterogenee sul paziente, linee guida cliniche ed esperienza del medico. Questo lavoro introduce lo Superhuman Policy Gradient Optimization (SPGO), un framework di imitation learning guidato da simulazione che va oltre la semplice replica diretta del comportamento degli esperti, puntando invece al miglioramento delle politiche orientato agli esiti. L’approccio proposto modella il percorso terapeutico utilizzando tre reti neurali di policy che interagiscono con un ambiente clinico generativo, il quale riproduce le traiettorie dei pazienti e l’evoluzione longitudinale dei sintomi. L’addestramento segue una formulazione basata sul policy gradient ispirata all’inverse reinforcement learning, in cui una subdominance loss funge da ricompensa multi-obiettivo, incoraggiando la policy appresa a eguagliare o superare i risultati dei medici su molteplici caratteristiche cliniche. Coefficienti adattivi specifici per ciascuna caratteristica regolano dinamicamente la pressione di apprendimento, consentendo alla policy di concentrarsi sugli endpoint clinici più difficili senza richiedere ricompense scalari progettate manualmente. La valutazione sperimentale dimostra che SPGO mantiene decisioni terapeutiche realistiche nel breve termine, migliorando al contempo gli esiti a lungo termine relativi alla tossicità e alle recidive in simulazioni. Questi risultati suggeriscono che i policy gradient consapevoli della dominanza rappresentano un collegamento fondato tra imitation learning e reinforcement learning, offrendo un framework riproducibile e interpretabile per l’ottimizzazione sequenziale dei trattamenti in oncologia.