ACE - autonomous combat environment: a modular reinforcement learning framework for dogfighting

Autonomous within-visual-range (WVR) air combat combines fast nonlinear flight dynamics, continuous control, uncertainty, and adversarial interaction, making systematic validation and fair comparison of Deep Reinforcement Learning (DRL) methods difficult. This thesis addresses these issues by introducing ACE (Autonomous Combat Environment), a unified and highly modular simulation and benchmarking framework designed to reduce fragmentation and improve reproducibility in autonomous air-combat research. A two-stage methodology is adopted to separate algorithmic prototyping from physics-based validation. First, a suite of Gymnasium toy-model environments is developed to enable rapid iteration on observation design, action parameterizations, reward shaping, and episode structure under controlled conditions. This stage supports standardized evaluation protocols and direct comparisons of widely used continuous-control algorithms (PPO, SAC, TD3), reducing confounding factors that often make conclusions ambiguous. Second, the same pipeline is transferred to a JSBSim-based 6-DoF setting with realistic aircraft dynamics, actuator limits, and safety-relevant constraints. In this stage, training focuses on PPO, SAC, and recurrent PPO (rPPO) to better handle temporal dependencies typical of flight and pursuit tasks. Across both stages, the framework is designed to be algorithm-agnostic and hot-swappable, with clear separation between environments, rewards, algorithms, and evaluation scripts. Experiments are made maximally repeatable by using fixed random seeds whenever possible to isolate algorithmic effects from stochastic variance, and by adopting a structured logging stack with Weights & Biases for experiment tracking and TacView for high-fidelity trajectory inspection. Results show that, in toy-model environments, robust and interpretable learning is consistently achievable when rewards and episode design are carefully engineered, enabling transparent benchmarking of pursuit and tracking behaviors. In contrast, high-fidelity experiments highlight that generalization and stability remain key bottlenecks as realism increases: randomized objectives, increased scenario variability, partial observability, and adversarial dogfighting lead to stronger sensitivity to initialization and reward details, as well as more frequent oscillatory or suboptimal behaviors. Overall, this thesis contributes a reproducible baseline and a modular experimental infrastructure that supports rigorous method evaluation in autonomous aerial combat, while also delineating concrete directions for improvement, including stronger curricula, more principled constraint handling, improved opponent sampling, and memory-aware policies for partially observable settings.

Il combattimento aereo autonomo entro il raggio visivo (WVR) combina dinamiche di volo non lineari e rapide, controllo continuo, incertezza e interazione avversaria, rendendo difficile una validazione sistematica e un confronto equo dei metodi di Deep Reinforcement Learning (DRL). Questa tesi affronta tali criticità introducendo ACE (Autonomous Combat Environment), un framework di simulazione e benchmarking unificato e altamente modulare, progettato per ridurre la frammentazione e migliorare la riproducibilità nella ricerca sul combattimento aereo autonomo. Viene adottata una metodologia in due fasi per separare il prototyping algoritmico dalla validazione basata sulla fisica. In primo luogo, viene sviluppata una suite di ambienti toy-model in Gymnasium per consentire un’iterazione rapida su progettazione delle osservazioni, parametrizzazioni delle azioni, reward shaping e struttura degli episodi in condizioni controllate. Questa fase supporta protocolli di valutazione standardizzati e confronti diretti di algoritmi di controllo continuo ampiamente utilizzati (PPO, SAC, TD3), riducendo i fattori confondenti che spesso rendono ambigue le conclusioni. In secondo luogo, la stessa pipeline viene trasferita in un contesto 6-DoF basato su JSBSim, con dinamiche del velivolo realistiche, limiti degli attuatori e vincoli rilevanti per la sicurezza. In questa fase, l’addestramento si concentra su PPO, SAC e PPO ricorrente (rPPO) per gestire meglio le dipendenze temporali tipiche dei compiti di volo e inseguimento. In entrambe le fasi, il framework è progettato per essere agnostico rispetto all’algoritmo e facilmente sostituibile (“hot-swappable”), con una chiara separazione tra ambienti, reward, algoritmi e script di valutazione. Gli esperimenti sono resi il più possibile ripetibili utilizzando, ove possibile, seed casuali fissi per isolare gli effetti algoritmici dalla variabilità stocastica, e adottando uno stack di logging strutturato con Weights & Biases per il tracciamento degli esperimenti e TacView per l’ispezione ad alta fedeltà delle traiettorie. I risultati mostrano che, negli ambienti toy-model, un apprendimento robusto e interpretabile è ottenibile in modo consistente quando reward e struttura degli episodi sono progettate con cura, permettendo un benchmarking trasparente dei comportamenti di inseguimento e tracking. Al contrario, gli esperimenti ad alta fedeltà evidenziano che la generalizzazione e la stabilità rimangono colli di bottiglia principali all’aumentare del realismo: obiettivi randomizzati, maggiore variabilità degli scenari, osservabilità parziale e dogfighting avversario portano a una maggiore sensibilità all’inizializzazione e ai dettagli della reward, oltre che a comportamenti oscillatori o subottimali più frequenti. Nel complesso, questa tesi fornisce una baseline riproducibile e un’infrastruttura sperimentale modulare che supporta una valutazione rigorosa dei metodi nel combattimento aereo autonomo, delineando al contempo direzioni concrete di miglioramento, tra cui curriculum più efficaci, una gestione dei vincoli più fondata, un campionamento degli avversari migliore e policy dotate di memoria per contesti a osservabilità parziale.