Deep RL: basic maneuvers and tasks for aerial dogfighting

Autonomous within-visual-range air combat presents a complex challenge involving fast flight dynamics, environmental uncertainty, and adversarial decision-making. Its strategic importance lies in enhancing tactical precision while minimizing pilot risk. This thesis explores Deep Reinforcement Learning (DRL) as an effective approach to develop autonomous air combat behaviors and to perform basic flight maneuvers and tasks, through interaction-based learning. The research is carried out in two stages. The first adopts simplified environments, allowing rapid prototyping of task definitions and reward shaping. In these settings, state-of-the-art actor–critic algorithms (PPO, SAC, TD3) successfully acquire complex pursuit behaviors and other elementary skills, demonstrating sensitivity to reward design, observation normalization, and exploration parameters. The second stage integrates the JSBSim flight dynamics engine within a modular, open-source framework (AIRIC-Polimi/dogfighting), supporting reproducibility and extensibility. Here, the study focuses on transferring the learned strategies to realistic 6-DoF flight simulation and analyzing tasks such as heading control, fixed point pursuit, and fixed trajectory tracking using actual aircraft dynamics. However, significant challenges arise when randomizing the trajectory or the target location: this variability results in less robust agent behaviors, increased risk of oscillatory or suboptimal trajectories, and more frequent mission failures compared to deterministic setups. Future developments of the research group will focus on extending this work toward the comprehensive definition of real aerial combat scenarios. This includes addressing multi-agent environments, partial observability, and the integration of weapon logic, leveraging the modular framework and empirical results produced in this thesis. The thesis establishes a reproducible baseline and identifies key technical challenge, especially in reward shaping, transferability across environments, and scaling to adversarial situations. Consequently, this study contributes essential modular tools and experimental insights that will support upcoming research in self-play, curriculum-based learning, and hierarchical autonomous control for aerial dogfighting.

Il combattimento aereo autonomo entro il raggio visivo rappresenta una sfida complessa, caratterizzata da dinamiche di volo rapide, incertezza ambientale e decisioni in contesti antagonistici. La sua rilevanza strategica risiede nell’aumentare la precisione tattica riducendo il rischio per il pilota. Questa tesi esplora il Deep Reinforcement Learning (DRL) come approccio efficace per sviluppare comportamenti di combattimento autonomo e per eseguire manovre di volo di base e compiti specifici, propri del comabattimento aereo, tramite apprendimento interattivo. La ricerca si articola in due fasi. La prima sfrutta ambienti semplificati per una rapida prototipazione delle definizioni di task e la progettazione delle ricompense. In questi contesti, algoritmi avanzati come PPO, SAC e TD3 sono in grado di apprendere efficacemente strategie di inseguimento complesse e altre abilità elementari, evidenziando una forte sensibilità alla struttura dei segnali di ricompensa, alla normalizzazione delle osservazioni e ai parametri d'esplorazione. La seconda fase integra il motore JSBSim all’interno di un framework modulare e open-source (AIRIC-Polimi/dogfighting), garantendo riproducibilità ed estendibilità. In questo ambito, la ricerca si concentra sul trasferimento delle strategie apprese verso la simulazione realistica del volo a sei gradi di libertà, affrontando compiti come il controllo dell’asse di imbardata, l’inseguimento di punti fissi e il tracking su traiettorie predefinite con dinamiche reali di aeromobili. Tuttavia, emergono sfide significative quando si va a randomizzare la traiettoria o la posizione del target: questa variabilità porta a comportamenti meno robusti da parte degli agenti, aumentando il rischio di traiettorie oscillatorie, subottimali e il fallimento degli obiettivi rispetto agli scenari statici. I futuri sviluppi del gruppo di ricerca si concentreranno sull’estensione di questo lavoro verso la definizione completa di scenari di combattimento aereo reale, affrontando ambienti multi-agente, condizioni di osservabilità parziale e l’integrazione della logica delle armi, sfruttando la struttura modulare e i risultati empirici prodotti in questa tesi. La tesi pone una baseline riproducibile e identifica le principali sfide tecniche, specialmente nella progettazione delle ricompense, nella trasferibilità tra ambienti e nella scalabilità verso situazioni sfidanti. Di conseguenza, questo lavoro contribuisce con strumenti modulari e approfondimenti sperimentali fondamentali per le future ricerche in self-play, apprendimento curriculare e controllo gerarchico nel combattimento aereo autonomo.