Autonomous driving (AD) is a hot topic in the research field. In particular, it gained popularity with the recent applications of Reinforcement Learning (RL) to this problem. The main motivation for AD is transports, however, it can also play a big role in the racing industry. While safety is a common requirement for both fields, the former focuses on efficiency, while the latter on performances. In this thesis work, we present various approaches of RL algorithms to autonomous racing, in the context of a racing simulator, in particular TORCS (The Open Racing Car Simulator), which is the standard software for academic research. The purpose of the work is to show, after extensively testing, the potentiality and the limits of this kind of algorithms applied to the complex task of trying and learn the time-optimal trajectory on a racing track. To ease their learning, these methods refer to human driven demonstrations. In particular, we collected experts' trajectories, and used them to let the algorithms learn from this experience. We focused on two different approaches of RL algorithms. The former involves trying to follow and improve a human demonstration trajectory within a single task. The latter adopts a two-step approach, consisting in, first, trying to follow the human demonstration trajectory as better as possible, then, upon on that, trying to improve the lap-time. After a discussion on the results obtained so far, we describe what are the possible useful extensions of the proposed methodology and the future steps in the industrial project’s course.
La guida autonoma è oggetto di studi da diversi anni ormai, nel corso dei quali ha guadagnato sempre più popolarità, in particolare grazie ai recenti successi dell'applicazione di tecniche di apprendimento per rinforzo. La motivazione principale che spinge l'industria e la ricerca in questa direzione è legata al trasporto. Tuttavia, la guida autonoma potrebbe giocare un ruolo importante anche nel mondo delle corse automobilistiche e in generale all'utilizzo sportivo delle auto. Se i due mondi condividono la caratteristica di avere la sicurezza come requisito fondamentale, i due divergono per quanto riguarda le loro ambizioni. Se, infatti, nel primo caso, la preoccupazione principale è quella di migliorare l'efficienza del motore e ridurre i consumi, nel secondo si aspira a migliorare tempi e performances in generale. In questo progetto di tesi, presentiamo vari approcci di apprendimento per rinforzo applicato all'ambito della guida autonoma legato alle corse automobilistiche. In particolare, abbiamo adottato un simulatore, TORCS (The Open Racing Car Simulator), che è lo strumento standard utilizzato nell'ambito di ricerca. L'obiettivo della tesi è quello di mostrare, in seguito a estensivi test e numerose simulazioni, le potenzialità e i limiti di alcune delle tecniche allo stato dell'arte dell'apprendimento per rinforzo, applicato a questo contesto. In particolare, ci siamo concentrati sul tentativo di addestrare degli algoritmi a completare il giro di un tracciato di una pista automobilistica nel minor tempo possibile. Per agevolare l'algoritmo in questo compito affatto banale, ci siamo provvisti di una serie di dimostrazioni di un esperto da utilizzare come primo esempio da seguire, e successivamente migliorare. A tale scopo, abbiamo intrapreso due approcci differenti. Il primo è un approccio diretto, che consiste nel tentativo di seguire e, allo stesso tempo, migliorare il tempo della traiettoria di riferimento. Considerata la complessità dell'obiettivo, questo approccio si è rivelato essere troppo semplice per ottenere risultati soddisfacenti, così abbiamo congegnato un secondo approccio. Questo consiste in un processo a due fasi: nella prima ci concentriamo nel seguire il più pedissequamente possibile la traiettoria dell'esperto. Successivamente, si tenta di migliorarne il tempo sul giro. A seguito di numerosi esperimenti, discuteremo i risultati ottenuti, esponendo i principali limiti e potenzialità di queste tecniche allo stato odierno, proponendo successivamente percorsi percorribili che ne migliorino i risultati.
Improving RL algorithms by human demonstrations for autonomous race driving
FUCCI, LUCA;FAZIO, UMBERTO
2018/2019
Abstract
Autonomous driving (AD) is a hot topic in the research field. In particular, it gained popularity with the recent applications of Reinforcement Learning (RL) to this problem. The main motivation for AD is transports, however, it can also play a big role in the racing industry. While safety is a common requirement for both fields, the former focuses on efficiency, while the latter on performances. In this thesis work, we present various approaches of RL algorithms to autonomous racing, in the context of a racing simulator, in particular TORCS (The Open Racing Car Simulator), which is the standard software for academic research. The purpose of the work is to show, after extensively testing, the potentiality and the limits of this kind of algorithms applied to the complex task of trying and learn the time-optimal trajectory on a racing track. To ease their learning, these methods refer to human driven demonstrations. In particular, we collected experts' trajectories, and used them to let the algorithms learn from this experience. We focused on two different approaches of RL algorithms. The former involves trying to follow and improve a human demonstration trajectory within a single task. The latter adopts a two-step approach, consisting in, first, trying to follow the human demonstration trajectory as better as possible, then, upon on that, trying to improve the lap-time. After a discussion on the results obtained so far, we describe what are the possible useful extensions of the proposed methodology and the future steps in the industrial project’s course.File | Dimensione | Formato | |
---|---|---|---|
Tesi Fazio Fucci.pdf
accessibile in internet per tutti
Descrizione: Testo della tesi
Dimensione
4.25 MB
Formato
Adobe PDF
|
4.25 MB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/154478