Multi-UAV mission planning with a Hierarchical Reinforcement Learning approach

Hierarchical Reinforcement Learinig (HRL) is a promising approach to deal with complex Reinforcement Learning problems, such as continuous control problems characterized by large action spaces. In this thesis, we analysed a mission planning problem of multiple Unmanned Aerial Vehicles (UAV), in which the goal is the elimination of a set of defined targets in a contested air space, i.e. with the presence of enemy air defenses, by using different weapons and sensors. Hence, each UAV has to address the combination of a navigation task and a strategic task, which together form a complex problem and make hard to design a good reward function. The proposed approach exploits HRL to distribute the problem's complexity over two levels, modeling the complete, long-horizon problem in a modular fashion, as the alternation of two subtasks: the high-level subtask follows a list of objectives to eliminate in sequence and allocates each UAV's low-level goal, which is achieved by the low-level subtask. The non-stationarity of hierarchical training is avoided by offline training a universal low-level navigation policy and then using it as a stable basis for the high-level policy training. The proposed solution was tested in different scenarios, with increasing complexity in terms of number of UAVs and enemy defenses, and showed good results and scalability, proving the effectiveness of a hierarchical approach in this setting.

L'apprendimento per rinforzo gerarchico è un approccio promettente per trattare problemi di apprendimento per rinforzo complessi, come problemi di controllo continuo caratterizzati da spazi di azione grandi. In questa tesi, abbiamo analizzato il problema di pianificazione di una missione con molteplici aeromobili a pilotaggio remoto (APR), in cui l'obiettivo è quello di eliminare un dato insieme di bersagli in uno spazio aereo contestato, cioè con la presenza di difese aeree nemiche, usando diverse armi e sensori. Ogni APR deve quindi affrontare un problema di navigazione e un problema strategico, che combinati formano un problema complesso che rende difficile formulare un'efficace funzione di valore. L'approccio proposto sfrutta l'apprendimento per rinforzo gerarchico per distribuire la complessità del problema su due livelli, modellando l'intero problema a lungo orizzonte in maniera modulare, come l'alternarsi di due sottoproblemi: il sottoproblema di alto livello, seguendo una lista di bersagli da eliminare in sequenza, assegna ad ogni APR un obiettivo, che viene raggiunto risolvendo il sottoproblema di basso livello. La non-stazionarietà dell'allenamento gerarchico è evitata allenando separatamente una politica di basso livello universale, per poi usarla come una base stabile su cui effettuare l'allenamento della politica di alto livello. La soluzione proposta è stata testata in diversi scenari, con complessità crescente in termini di numero di APR e difese nemiche, mostrando buone prestazioni e scalabilità e dimostrando come l'approccio gerarchico sia efficace per questo problema.