Reinforcement learning for high-level decision making in autonomous driving

The application of Reinforcement Learning to Autonomous Driving is a relevant topic in the Machine Learning community. Reinforcement Learning techniques generate control policies effective in diverse situations and resilient to noise. These properties are relevant for the control of an autonomous car that has to face continuously different scenarios. The goal of this project is to propose a Reinforcement Learning approach to address the Autonomous Driving problem. In this document, different Autonomous Driving scenarios are proposed such as highway and urban driving. For each of these scenarios a different approach is suggested for the formalization of the problem and the corresponding solution to create a high-level controller for the autonomous car. The first main issue to tackle is the creation of the state representation. In this work, a feature-based state representation is chosen, that results exhaustive and compact. In the Reinforcement Learning framework, the desired behavior is encoded in the reward function. The Reinforcement Learning algorithm aims at finding a policy, that maximizes the cumulative sum of the rewards. The second main issue consists in properly defining the reward function in order to code the desired behavior. The different scenarios considered present different goals, and thus, a different reward function needs to be designed. The chosen solutions for the state representation and the reward function make the algorithms produce good versatile high-level controllers, that show behaviors similar to a human driver. This result shows that the Reinforcement Learning approach can be an effective way to face the Autonomous Driving problems, thanks to the high flexibility of the produced controllers.

L'applicazione di tecniche di Apprendimento per Rinforzo alla Guida Autonoma è un argomento di spicco nella comunità di Machine Learning. Le tecniche di apprendimento per rinforzo generano politiche di controllo efficaci in situazioni differenti e robuste al rumore. Queste sono proprietà chiave per produrre un controllore in grado di adattarsi ai diversi scenari che il veicolo a guida autonoma deve affrontare. L'obiettivo di questo progetto è proporre un approccio di apprendimento per rinforzo per affrontare diversi problemi correlati della guida autonoma. In questo documento vengono proposti diversi scenari di guida autonoma come la guida in autostrada e in città. Per ognuno di questi scenari viene suggerito un approccio diverso per la formalizzazione del problema e la soluzione corrispondente per creare un controllore di alto livello per il veicolo autonomo. Il primo problema da affrontare è relativo alla rappresentazione di stato. In questo lavoro, viene scelta una rappresentazione di stato basata su features, che risulta esaustiva e compatta. Nel framework di apprendimento per rinforzo, il comportamento desiderato è codificato nella funzione di ricompensa. L'algoritmo di apprendimento per rinforzo mira a trovare una politica che massimizzi la somma cumulativa delle ricompense. Il secondo problema da cosiderare consiste nel definire correttamente la funzione di ricompensa al fine di codificare il comportamento desiderato. I diversi scenari considerati presentano obiettivi diversi e, pertanto, è necessario modellare una funzione di ricompensa diversa. Le soluzioni scelte per la rappresentazione dello stato e la funzione di ricompensa fanno sì che gli algoritmi producano buoni controlleri di alto livello versatili, che mostrano comportamenti simili a quelli di un guidatore umano. Questo risultato mostra che l'apprendimento per rinforzo può essere un approccio efficace per affrontare i problemi di guida autonoma, grazie all'elevata flessibilità dei controlleri prodotti.