Nonlinear optimal control problems are challenging to solve efficiently with traditional approaches due to bang-bang controls. This thesis introduces a trajectory optimization approach that achieves interesting performance by combining deep reinforcement learning with the more traditional shooting method. First, the linearized dynamics equations are implemented. Then, inside the Proximal Policy Optimization algorithm an environment is created, incorporating reset, check-done, and step functions. Hyperparameters are established so that it is possible to train the agent and obtain a neural solver for Two Point Boundary Value Problem. This approach is applied to an enviroment populated with obstacles, wherein movement logic is established to facilitate the drone’s avoidance of these obstacles. Numerical experiments validate the effectiveness of the technique, highlighting its robustness, simplicity, low computational cost, and ability to compute near-optimal trajectories, generating agile movements.
I problemi di controllo ottimale non lineare sono difficili da risolvere efficientemente con approcci tradizionali a causa dei controlli bang-bang. Questa tesi introduce un approccio di ottimizzazione della traiettoria che ottiene prestazioni interessanti combinando il deep reinforcement learning con il più tradizionale metodo di shooting. Inizialmente, le equazioni della dinamica linearizzate vengono implementate. Successivamente, all’interno dell’algoritmo Proximal Policy Optimization, viene creato un ambiente, incorporando le funzioni di reset, check-done e step. Vengono stabiliti gli iperparametri per addestrare l’agente e ottenere un risolutore neurale di Two Point Boundary Value Problem. Questo approccio viene applicato a un ambiente con ostacoli, dove viene stabilita una logica di movimento affinché il drone li eviti. Esperimenti numerici convalidano l’efficacia del modello, evidenziando la sua robustezza, semplicità, basso costo computazionale e capacità di calcolare traiettorie quasi ottimali, generando movimenti agili.
Problemi di tempo minimo e Intelligenza Artificiale con applicazione alla guida di Droni : dal principio del massimo di Pontryagin al deep reinforcement learning
MARINSALDA, ELIA
2022/2023
Abstract
Nonlinear optimal control problems are challenging to solve efficiently with traditional approaches due to bang-bang controls. This thesis introduces a trajectory optimization approach that achieves interesting performance by combining deep reinforcement learning with the more traditional shooting method. First, the linearized dynamics equations are implemented. Then, inside the Proximal Policy Optimization algorithm an environment is created, incorporating reset, check-done, and step functions. Hyperparameters are established so that it is possible to train the agent and obtain a neural solver for Two Point Boundary Value Problem. This approach is applied to an enviroment populated with obstacles, wherein movement logic is established to facilitate the drone’s avoidance of these obstacles. Numerical experiments validate the effectiveness of the technique, highlighting its robustness, simplicity, low computational cost, and ability to compute near-optimal trajectories, generating agile movements.File | Dimensione | Formato | |
---|---|---|---|
Executive_Summary__Elia_Marinsalda.pdf
accessibile in internet solo dagli utenti autorizzati
Descrizione: Executive_Summary
Dimensione
1.14 MB
Formato
Adobe PDF
|
1.14 MB | Adobe PDF | Visualizza/Apri |
Tesi_Elia_Marinsalda_19_03_2024.pdf
accessibile in internet solo dagli utenti autorizzati
Descrizione: testo della tesi
Dimensione
4.49 MB
Formato
Adobe PDF
|
4.49 MB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/219727