Problemi di tempo minimo e Intelligenza Artificiale con applicazione alla guida di Droni : dal principio del massimo di Pontryagin al deep reinforcement learning

Biblioteche e Archivi
POLITesi - Archivio digitale delle tesi di laurea e di dottorato

Nonlinear optimal control problems are challenging to solve efficiently with traditional approaches due to bang-bang controls. This thesis introduces a trajectory optimization approach that achieves interesting performance by combining deep reinforcement learning with the more traditional shooting method. First, the linearized dynamics equations are implemented. Then, inside the Proximal Policy Optimization algorithm an environment is created, incorporating reset, check-done, and step functions. Hyperparameters are established so that it is possible to train the agent and obtain a neural solver for Two Point Boundary Value Problem. This approach is applied to an enviroment populated with obstacles, wherein movement logic is established to facilitate the drone’s avoidance of these obstacles. Numerical experiments validate the effectiveness of the technique, highlighting its robustness, simplicity, low computational cost, and ability to compute near-optimal trajectories, generating agile movements.

I problemi di controllo ottimale non lineare sono difficili da risolvere efficientemente con approcci tradizionali a causa dei controlli bang-bang. Questa tesi introduce un approccio di ottimizzazione della traiettoria che ottiene prestazioni interessanti combinando il deep reinforcement learning con il più tradizionale metodo di shooting. Inizialmente, le equazioni della dinamica linearizzate vengono implementate. Successivamente, all’interno dell’algoritmo Proximal Policy Optimization, viene creato un ambiente, incorporando le funzioni di reset, check-done e step. Vengono stabiliti gli iperparametri per addestrare l’agente e ottenere un risolutore neurale di Two Point Boundary Value Problem. Questo approccio viene applicato a un ambiente con ostacoli, dove viene stabilita una logica di movimento affinché il drone li eviti. Esperimenti numerici convalidano l’efficacia del modello, evidenziando la sua robustezza, semplicità, basso costo computazionale e capacità di calcolare traiettorie quasi ottimali, generando movimenti agili.

Problemi di tempo minimo e Intelligenza Artificiale con applicazione alla guida di Droni : dal principio del massimo di Pontryagin al deep reinforcement learning

MARINSALDA, ELIA

2022/2023

Abstract

Nonlinear optimal control problems are challenging to solve efficiently with traditional approaches due to bang-bang controls. This thesis introduces a trajectory optimization approach that achieves interesting performance by combining deep reinforcement learning with the more traditional shooting method. First, the linearized dynamics equations are implemented. Then, inside the Proximal Policy Optimization algorithm an environment is created, incorporating reset, check-done, and step functions. Hyperparameters are established so that it is possible to train the agent and obtain a neural solver for Two Point Boundary Value Problem. This approach is applied to an enviroment populated with obstacles, wherein movement logic is established to facilitate the drone’s avoidance of these obstacles. Numerical experiments validate the effectiveness of the technique, highlighting its robustness, simplicity, low computational cost, and ability to compute near-optimal trajectories, generating agile movements.

Scheda breve

Scheda completa

	Relatore
	
				Riboldi, Carlo Emanuele Dionigi
			
	Correlatore/i
	
				Vetere, Raoul
			
	Scuola / Dip.
	
				ING  - Scuola di Ingegneria Industriale e dell'Informazione
			
	Data
	
				9-apr-2024
			
	Anno accademico
	
				2022/2023
			
	Abstract in italiano
	
				I problemi di controllo ottimale non lineare sono difficili da risolvere efficientemente con
approcci tradizionali a causa dei controlli bang-bang. Questa tesi introduce un approccio
di ottimizzazione della traiettoria che ottiene prestazioni interessanti combinando il deep
reinforcement learning con il più tradizionale metodo di shooting.
Inizialmente, le equazioni della dinamica linearizzate vengono implementate. Successivamente, all’interno dell’algoritmo Proximal Policy Optimization, viene creato un ambiente,
incorporando le funzioni di reset, check-done e step. Vengono stabiliti gli iperparametri
per addestrare l’agente e ottenere un risolutore neurale di Two Point Boundary Value
Problem.
Questo approccio viene applicato a un ambiente con ostacoli, dove viene stabilita una
logica di movimento affinché il drone li eviti.
Esperimenti numerici convalidano l’efficacia del modello, evidenziando la sua robustezza,
semplicità, basso costo computazionale e capacità di calcolare traiettorie quasi ottimali,
generando movimenti agili.
			
	Appare nelle tipologie:
	
				Tesi di laurea Magistrale

File allegati

File	Dimensione	Formato
Executive_Summary__Elia_Marinsalda.pdf accessibile in internet solo dagli utenti autorizzati Descrizione: Executive_Summary Dimensione 1.14 MB Formato Adobe PDF Visualizza/Apri	1.14 MB	Adobe PDF	Visualizza/Apri
Tesi_Elia_Marinsalda_19_03_2024.pdf accessibile in internet solo dagli utenti autorizzati Descrizione: testo della tesi Dimensione 4.49 MB Formato Adobe PDF Visualizza/Apri	4.49 MB	Adobe PDF	Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/219727