Nonlinear optimal control problems are challenging to solve efficiently with traditional approaches due to bang-bang controls. This thesis introduces a trajectory optimization approach that achieves interesting performance by combining deep reinforcement learning with the more traditional shooting method. First, the linearized dynamics equations are implemented. Then, inside the Proximal Policy Optimization algorithm an environment is created, incorporating reset, check-done, and step functions. Hyperparameters are established so that it is possible to train the agent and obtain a neural solver for Two Point Boundary Value Problem. This approach is applied to an enviroment populated with obstacles, wherein movement logic is established to facilitate the drone’s avoidance of these obstacles. Numerical experiments validate the effectiveness of the technique, highlighting its robustness, simplicity, low computational cost, and ability to compute near-optimal trajectories, generating agile movements.

I problemi di controllo ottimale non lineare sono difficili da risolvere efficientemente con approcci tradizionali a causa dei controlli bang-bang. Questa tesi introduce un approccio di ottimizzazione della traiettoria che ottiene prestazioni interessanti combinando il deep reinforcement learning con il più tradizionale metodo di shooting. Inizialmente, le equazioni della dinamica linearizzate vengono implementate. Successivamente, all’interno dell’algoritmo Proximal Policy Optimization, viene creato un ambiente, incorporando le funzioni di reset, check-done e step. Vengono stabiliti gli iperparametri per addestrare l’agente e ottenere un risolutore neurale di Two Point Boundary Value Problem. Questo approccio viene applicato a un ambiente con ostacoli, dove viene stabilita una logica di movimento affinché il drone li eviti. Esperimenti numerici convalidano l’efficacia del modello, evidenziando la sua robustezza, semplicità, basso costo computazionale e capacità di calcolare traiettorie quasi ottimali, generando movimenti agili.

Problemi di tempo minimo e Intelligenza Artificiale con applicazione alla guida di Droni : dal principio del massimo di Pontryagin al deep reinforcement learning

MARINSALDA, ELIA
2022/2023

Abstract

Nonlinear optimal control problems are challenging to solve efficiently with traditional approaches due to bang-bang controls. This thesis introduces a trajectory optimization approach that achieves interesting performance by combining deep reinforcement learning with the more traditional shooting method. First, the linearized dynamics equations are implemented. Then, inside the Proximal Policy Optimization algorithm an environment is created, incorporating reset, check-done, and step functions. Hyperparameters are established so that it is possible to train the agent and obtain a neural solver for Two Point Boundary Value Problem. This approach is applied to an enviroment populated with obstacles, wherein movement logic is established to facilitate the drone’s avoidance of these obstacles. Numerical experiments validate the effectiveness of the technique, highlighting its robustness, simplicity, low computational cost, and ability to compute near-optimal trajectories, generating agile movements.
Vetere, Raoul
ING - Scuola di Ingegneria Industriale e dell'Informazione
9-apr-2024
2022/2023
I problemi di controllo ottimale non lineare sono difficili da risolvere efficientemente con approcci tradizionali a causa dei controlli bang-bang. Questa tesi introduce un approccio di ottimizzazione della traiettoria che ottiene prestazioni interessanti combinando il deep reinforcement learning con il più tradizionale metodo di shooting. Inizialmente, le equazioni della dinamica linearizzate vengono implementate. Successivamente, all’interno dell’algoritmo Proximal Policy Optimization, viene creato un ambiente, incorporando le funzioni di reset, check-done e step. Vengono stabiliti gli iperparametri per addestrare l’agente e ottenere un risolutore neurale di Two Point Boundary Value Problem. Questo approccio viene applicato a un ambiente con ostacoli, dove viene stabilita una logica di movimento affinché il drone li eviti. Esperimenti numerici convalidano l’efficacia del modello, evidenziando la sua robustezza, semplicità, basso costo computazionale e capacità di calcolare traiettorie quasi ottimali, generando movimenti agili.
File allegati
File Dimensione Formato  
Executive_Summary__Elia_Marinsalda.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Executive_Summary
Dimensione 1.14 MB
Formato Adobe PDF
1.14 MB Adobe PDF   Visualizza/Apri
Tesi_Elia_Marinsalda_19_03_2024.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: testo della tesi
Dimensione 4.49 MB
Formato Adobe PDF
4.49 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/219727