Learning driving behaviours in the open racing car simulator using deep reinforcement learning

Biblioteche e Archivi
POLITesi - Archivio digitale delle tesi di laurea e di dottorato

The applications of deep reinforcement learning to racing games so far have highlighted how reaching optimal performance turns out to be a hard task. Research works, mainly focused on a low-level input design, show that artificial agents are able to learn to stay on track starting from no driving knowledge; however, the final performance is still far from competitive driving. The scope of this thesis is to investigate in which measure rising the level abstraction can help the learning process. Using The Open Racing Car Simulator (TORCS) environment and the Deep Deterministic Policy Gradients (DDPG) algorithm, we develop artificial agents, considering both numerical and visual inputs, based on deep neural networks. These agents learn to compute either a target point on track or, additionally, a correction to the target maximum speed at the current position, which are then matched to low-level commands by implementing a following logic. Our results show that our approach was able to achieve a fair performance, though extremely sensitive to the following logic. Further work is necessary in order to understand how to fully exploit a high-level control design.

Le applicazioni di deep reinforcement learning ai giochi di guida realizzate finora hanno evidenziato la difficoltà di raggiungere performance ottimali. Gli studi condotti, focalizzati principalmente su un design a basso livello dell'output di controllo, hanno mostrato che gli agenti artificiali riescono a rimanere all'interno dei bordi del tracciato partendo da nessuna abilità di guida; tuttavia, le performance finali sono comunque lontane da una guida competitiva. Lo scopo della tesi è investigare in quale misura l'innalzamento del livello di astrazione possa aiutare il processo di apprendimento. Usando l'ambiente di The Open Racing Car Simulator (TORCS) e l'algoritmo Deep Deterministic Policy Gradients (DDPG), abbiamo sviluppato degli agenti artificiali, considerando sia input numerici che input visivi, basati su reti neurali profonde. Gli agenti imparano a calcolare un punto target sul tracciato o, in aggiunta, una correzione sulla velocità target massima nella posizione corrente, che sono poi tradotti in comandi a basso livello da una logica di inseguimento. I risultati ottenuti mostrano che il nostro approccio riesce ad raggiungere performance discrete, sebbene particolarmente sensibili alla logica di inseguimento. Studi ulteriori sono necessari al fine di comprendere come sfruttare a pieno un design di controllo ad alto livello.

Learning driving behaviours in the open racing car simulator using deep reinforcement learning

CAPO, EMILIO

2018/2019

Abstract

The applications of deep reinforcement learning to racing games so far have highlighted how reaching optimal performance turns out to be a hard task. Research works, mainly focused on a low-level input design, show that artificial agents are able to learn to stay on track starting from no driving knowledge; however, the final performance is still far from competitive driving. The scope of this thesis is to investigate in which measure rising the level abstraction can help the learning process. Using The Open Racing Car Simulator (TORCS) environment and the Deep Deterministic Policy Gradients (DDPG) algorithm, we develop artificial agents, considering both numerical and visual inputs, based on deep neural networks. These agents learn to compute either a target point on track or, additionally, a correction to the target maximum speed at the current position, which are then matched to low-level commands by implementing a following logic. Our results show that our approach was able to achieve a fair performance, though extremely sensitive to the following logic. Further work is necessary in order to understand how to fully exploit a high-level control design.

Scheda breve

Scheda completa

	Relatore
	
				LOIACONO, DANIELE
			
	Scuola / Dip.
	
				ING  - Scuola di Ingegneria Industriale e dell'Informazione
			
	Data
	
				6-giu-2020
			
	Anno accademico
	
				2018/2019
			
	Abstract in italiano
	
				Le applicazioni di deep reinforcement learning ai giochi di guida realizzate finora hanno evidenziato la difficoltà di raggiungere performance ottimali. Gli studi condotti, focalizzati principalmente su un design a basso livello dell'output di controllo, hanno mostrato che gli agenti artificiali riescono a rimanere all'interno dei bordi del tracciato partendo da nessuna abilità di guida; tuttavia, le performance finali sono comunque lontane da una guida competitiva. Lo scopo della tesi è investigare in quale misura l'innalzamento del livello di astrazione possa aiutare il processo di apprendimento. Usando l'ambiente di The Open Racing Car Simulator (TORCS) e l'algoritmo Deep Deterministic Policy Gradients (DDPG), abbiamo sviluppato degli agenti artificiali, considerando sia input numerici che input visivi, basati su reti neurali profonde. Gli agenti imparano a calcolare un punto target sul tracciato o, in aggiunta, una correzione sulla velocità target massima nella posizione corrente, che sono poi tradotti in comandi a basso livello da una logica di inseguimento. I risultati ottenuti mostrano che il nostro approccio riesce ad raggiungere performance discrete, sebbene particolarmente sensibili alla logica di inseguimento. Studi ulteriori sono necessari al fine di comprendere come sfruttare a pieno un design di controllo ad alto livello.
			
	Tipo di documento
	
				Tesi di laurea Magistrale
			
	Appare nelle tipologie:
	
				Tesi di laurea Magistrale

File allegati

File	Dimensione	Formato
EmilioCapo-Master_Thesis.pdf accessibile in internet per tutti Descrizione: Thesis text. Dimensione 4.28 MB Formato Adobe PDF Visualizza/Apri	4.28 MB	Adobe PDF	Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/165096