Reinforcement learning (RL) is a collection of techniques for teaching an agent how to take sequential decisions in order to reach a particular goal, by making it interact with the environment. RL has a great advantage over traditional methods. A policy to reach a particular goal can be learnt without necessarily creating a model of the environment, but just using data collected while interacting with the environment. However, classic RL algorithms would struggle with complex and continuous environments, but after the outbreak of neural networks and deep learning in general, many new deep reinforcement learning (DRL) algorithms emerged and proved to be very effective in those situations. The key element in DRL algorithms is that neural networks are used to approximate the policy, being able to manage a very complex and unstructured state as input. In this thesis work, we define a new complex scenario for multi-UAV control, inspired from a real military mission scenario, that focuses on mission replanning. We then formalize it by means of a Markov decision process and solve it using Proximal Policy Optimization (PPO), one of the state-of-the-art deep policy gradient RL algorithms. We finally show and discuss the results, and present some possible expansions to our work.

L'apprendimento per rinforzo, o reinforcement learning (RL), è una raccolta di tecniche per insegnare a un agente come prendere decisioni sequenziali per raggiungere un obiettivo particolare, facendolo interagire con l'ambiente. RL ha un grande vantaggio rispetto ai metodi tradizionali. Una politica per raggiungere un determinato obiettivo può essere appresa senza necessariamente creare un modello dell'ambiente, ma solamente usando i dati raccolti in seguito all'interazione con l'ambiente. Tuttavia, gli algoritmi di RL classici avrebbero difficoltà con ambienti complessi e continui, ma dopo lo sviluppo delle reti neurali e del deep learning in generale, sono emersi molti nuovi algoritmi di deep reinforcement learning (DRL) che si sono rivelati molto efficaci in quelle situazioni. L'elemento chiave negli algoritmi DRL è che le reti neurali vengono utilizzate per approssimare la politica, essendo in grado di gestire uno stato molto complesso e non strutturato come input. In questo lavoro di tesi definiamo un nuovo scenario complesso per il controllo multi-UAV, ispirato a un vero scenario di missione militare, che si concentra sulla ripianificazione della missione. Quindi lo formalizziamo per mezzo di un Markov decision process e lo risolviamo utilizzando Proximal Policy Optimization (PPO), un algoritmo di RL di tipo deep policy gradient, usato nello stato dell'arte. Infine mostriamo e discutiamo i risultati e presentiamo alcune possibili espansioni del nostro lavoro.

A policy gradient approach for multi-UAV control in complex continuous environments

Pacciani, Matteo
2020/2021

Abstract

Reinforcement learning (RL) is a collection of techniques for teaching an agent how to take sequential decisions in order to reach a particular goal, by making it interact with the environment. RL has a great advantage over traditional methods. A policy to reach a particular goal can be learnt without necessarily creating a model of the environment, but just using data collected while interacting with the environment. However, classic RL algorithms would struggle with complex and continuous environments, but after the outbreak of neural networks and deep learning in general, many new deep reinforcement learning (DRL) algorithms emerged and proved to be very effective in those situations. The key element in DRL algorithms is that neural networks are used to approximate the policy, being able to manage a very complex and unstructured state as input. In this thesis work, we define a new complex scenario for multi-UAV control, inspired from a real military mission scenario, that focuses on mission replanning. We then formalize it by means of a Markov decision process and solve it using Proximal Policy Optimization (PPO), one of the state-of-the-art deep policy gradient RL algorithms. We finally show and discuss the results, and present some possible expansions to our work.
DRAPPO, GIANLUCA
ING - Scuola di Ingegneria Industriale e dell'Informazione
28-apr-2022
2020/2021
L'apprendimento per rinforzo, o reinforcement learning (RL), è una raccolta di tecniche per insegnare a un agente come prendere decisioni sequenziali per raggiungere un obiettivo particolare, facendolo interagire con l'ambiente. RL ha un grande vantaggio rispetto ai metodi tradizionali. Una politica per raggiungere un determinato obiettivo può essere appresa senza necessariamente creare un modello dell'ambiente, ma solamente usando i dati raccolti in seguito all'interazione con l'ambiente. Tuttavia, gli algoritmi di RL classici avrebbero difficoltà con ambienti complessi e continui, ma dopo lo sviluppo delle reti neurali e del deep learning in generale, sono emersi molti nuovi algoritmi di deep reinforcement learning (DRL) che si sono rivelati molto efficaci in quelle situazioni. L'elemento chiave negli algoritmi DRL è che le reti neurali vengono utilizzate per approssimare la politica, essendo in grado di gestire uno stato molto complesso e non strutturato come input. In questo lavoro di tesi definiamo un nuovo scenario complesso per il controllo multi-UAV, ispirato a un vero scenario di missione militare, che si concentra sulla ripianificazione della missione. Quindi lo formalizziamo per mezzo di un Markov decision process e lo risolviamo utilizzando Proximal Policy Optimization (PPO), un algoritmo di RL di tipo deep policy gradient, usato nello stato dell'arte. Infine mostriamo e discutiamo i risultati e presentiamo alcune possibili espansioni del nostro lavoro.
File allegati
File Dimensione Formato  
Tesi.pdf

non accessibile

Dimensione 2.23 MB
Formato Adobe PDF
2.23 MB Adobe PDF   Visualizza/Apri
Executive_Summary.pdf

non accessibile

Dimensione 508.57 kB
Formato Adobe PDF
508.57 kB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/186887