The applications of deep reinforcement learning to racing games so far have highlighted how reaching optimal performance turns out to be a hard task. Research works, mainly focused on a low-level input design, show that artificial agents are able to learn to stay on track starting from no driving knowledge; however, the final performance is still far from competitive driving. The scope of this thesis is to investigate in which measure rising the level abstraction can help the learning process. Using The Open Racing Car Simulator (TORCS) environment and the Deep Deterministic Policy Gradients (DDPG) algorithm, we develop artificial agents, considering both numerical and visual inputs, based on deep neural networks. These agents learn to compute either a target point on track or, additionally, a correction to the target maximum speed at the current position, which are then matched to low-level commands by implementing a following logic. Our results show that our approach was able to achieve a fair performance, though extremely sensitive to the following logic. Further work is necessary in order to understand how to fully exploit a high-level control design.

Le applicazioni di deep reinforcement learning ai giochi di guida realizzate finora hanno evidenziato la difficoltà di raggiungere performance ottimali. Gli studi condotti, focalizzati principalmente su un design a basso livello dell'output di controllo, hanno mostrato che gli agenti artificiali riescono a rimanere all'interno dei bordi del tracciato partendo da nessuna abilità di guida; tuttavia, le performance finali sono comunque lontane da una guida competitiva. Lo scopo della tesi è investigare in quale misura l'innalzamento del livello di astrazione possa aiutare il processo di apprendimento. Usando l'ambiente di The Open Racing Car Simulator (TORCS) e l'algoritmo Deep Deterministic Policy Gradients (DDPG), abbiamo sviluppato degli agenti artificiali, considerando sia input numerici che input visivi, basati su reti neurali profonde. Gli agenti imparano a calcolare un punto target sul tracciato o, in aggiunta, una correzione sulla velocità target massima nella posizione corrente, che sono poi tradotti in comandi a basso livello da una logica di inseguimento. I risultati ottenuti mostrano che il nostro approccio riesce ad raggiungere performance discrete, sebbene particolarmente sensibili alla logica di inseguimento. Studi ulteriori sono necessari al fine di comprendere come sfruttare a pieno un design di controllo ad alto livello.

Learning driving behaviours in the open racing car simulator using deep reinforcement learning

CAPO, EMILIO
2018/2019

Abstract

The applications of deep reinforcement learning to racing games so far have highlighted how reaching optimal performance turns out to be a hard task. Research works, mainly focused on a low-level input design, show that artificial agents are able to learn to stay on track starting from no driving knowledge; however, the final performance is still far from competitive driving. The scope of this thesis is to investigate in which measure rising the level abstraction can help the learning process. Using The Open Racing Car Simulator (TORCS) environment and the Deep Deterministic Policy Gradients (DDPG) algorithm, we develop artificial agents, considering both numerical and visual inputs, based on deep neural networks. These agents learn to compute either a target point on track or, additionally, a correction to the target maximum speed at the current position, which are then matched to low-level commands by implementing a following logic. Our results show that our approach was able to achieve a fair performance, though extremely sensitive to the following logic. Further work is necessary in order to understand how to fully exploit a high-level control design.
ING - Scuola di Ingegneria Industriale e dell'Informazione
6-giu-2020
2018/2019
Le applicazioni di deep reinforcement learning ai giochi di guida realizzate finora hanno evidenziato la difficoltà di raggiungere performance ottimali. Gli studi condotti, focalizzati principalmente su un design a basso livello dell'output di controllo, hanno mostrato che gli agenti artificiali riescono a rimanere all'interno dei bordi del tracciato partendo da nessuna abilità di guida; tuttavia, le performance finali sono comunque lontane da una guida competitiva. Lo scopo della tesi è investigare in quale misura l'innalzamento del livello di astrazione possa aiutare il processo di apprendimento. Usando l'ambiente di The Open Racing Car Simulator (TORCS) e l'algoritmo Deep Deterministic Policy Gradients (DDPG), abbiamo sviluppato degli agenti artificiali, considerando sia input numerici che input visivi, basati su reti neurali profonde. Gli agenti imparano a calcolare un punto target sul tracciato o, in aggiunta, una correzione sulla velocità target massima nella posizione corrente, che sono poi tradotti in comandi a basso livello da una logica di inseguimento. I risultati ottenuti mostrano che il nostro approccio riesce ad raggiungere performance discrete, sebbene particolarmente sensibili alla logica di inseguimento. Studi ulteriori sono necessari al fine di comprendere come sfruttare a pieno un design di controllo ad alto livello.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
EmilioCapo-Master_Thesis.pdf

accessibile in internet per tutti

Descrizione: Thesis text.
Dimensione 4.28 MB
Formato Adobe PDF
4.28 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/165096