Reinforcement learning for autonomous driving : comfort and robustness to noise

In the framework of high-level decision making for autonomous driving, Reinforcement Learning techniques have taken a central position in the development of algorithms and procedures for humanlike decisions. Past works show how effective this kind of techniques is in many research fields. Also in robotics and in particular in autonomous driving, the literature shows great results in this sense. There is now more emphasis on the second stage of development, regarding for instance the robustness to sensor noise and the driving comfort. In this project, these topics are faced, providing a deep analysis on the robustness of the algorithm to noise and proposing a new solution for the comfort issue. The first point is to test the PGPE algorithm, with a rule-based policy, i.e. the tool that models the behavior of the autonomous agent, in the SUMO simulation environment adding different models of noise. The noise is added on the state variables, taken as input of the policy, and by using ARMA processes, autocorrelation in time and cross correlation among variables is considered. The problem of comfort is faced with the proposal of a two step policy, a first step that is responsible for high level decisions, such as the time to enter in a cross, and a low level planner downstream. The planner receives as input the high level decisions and outputs the acceleration profile, optimizing the driving comfort. Some results are presented, showing that the research and development direction is promising.

Nell’ambito di processi decisionali di alto livello per la guida autonoma, le tecniche di Apprendimento per Rinforzo stanno occupando posizioni sempre più centrali nello sviluppo di algoritmi che mirano ad emulare decisioni umane. Lavori precedenti mostrano l’efficacia di queste tecniche in diversi campi di ricerca. Anche nella robotica, e in particolare nella guida autonoma, si possono osservare notevoli risultati in letteratura. Attualmente maggiore enfasi si ha sul secondo stadio di sviluppo, che riguarda ad esempio la robustezza al rumore dei sensori e uno stile di guida confortevole. Questo nell’ottica di avere un primo passo nell’industrializzazione di tecniche di guida autonoma che, in contesti di ricerca e sviluppo, hanno mostrato potenzialità evidenti. Il presente progetto si colloca quindi in questa prospettiva: constatando che un primo passo promettente è stato tracciato nella direzione dell’apprendimento per rinforzo, è necessario procedere con un miglioramento delle tecniche e degli algoritmi che tengano in considerazione anche aspetti legati ad una guida più fluida e confortevole e al possibile rumore sui sensori.La teoria a cui si fa rimento è quella dell’Apprendimento per Rinforzo. Con questo termine si indica un ramo dell’Apprendimento Automatico che ha come oggetto lo sviluppo di algoritmi e tecniche volte a permettere ad un agente autonomo di portare a termine un compito in un ambiente, interagendo con esso e raccogliendo i risultati e le conseguenze delle azioni intraprese. La politica è quell’oggetto che modella il comportamento dell’agente, in particolare riceve in ingresso lo stato del sistema, dunque l’insieme di variabli che ne caratterizzano la natura, e fornisce in uscita l’azione che, auspicabilmente, porta al compimento dell’obiettivo. Lo scopo dell’apprendimento è quello di migliorare questa politica: tramite l’esperienza l’agente quindi impara quale azione è più opportuna in una determinata situazione, per arrivare alla realizzazione dell’obiettivo.In questo progetto, lo scenario che si è analizzato è quello urbano dell’incrocio. Questo infatti mostra le maggiori difficoltà, date le diverse forme in cui un incrocio si presenta e la complicazione nel generalizzare il sistema, cosa invece più fattibile per lo scenario autostradale. Il punto di partenza di questo progetto è una politica a regole parametrizzata, quindi strutturata secondo un albero decisionale contenente parametri, che vengono ottimizzati nel processo di apprendimento. Tale politica ha mostrato efficacia nell’affrontare il problema dell’incrocio. Uno degli aspetti positivi è inoltre la sua modularità, essendo applicabile a diverse topologie. Il primo obiettivo è stato quello di testare questa politica in condizioni non ottimali, aggiungendo quindi rumore alle variabili di stato prese in ingresso. In questo modo, è stato possibile verificare la robustezza dell’algoritmo di apprendimento (PGPE) e della politica a regole. Un contributo originale è dato dall’applicazione di modelli stocastici per simulare il rumore, in ambito di guida autonoma ed in particolare in PGPE. Si è fatto riferimento a classici modelli ARMA per le serie temporali, strumento che ha permesso di introdurre autocorrelazione nel tempo così come correlazione incrociata tra le variabli. In questa maniera si sono analizzati gli effetti di modelli diversi di rumore nella fase di apprendimento.Un problema non secondario che si è riscontrato nella politica a regole è legato al comportamento dell’agente che, spesso, ha mostrato aspetti irrazionali. In particolare, a frenate improvvise l’agente alternava richieste di accelerazioni, mostrando continui cambiamenti tra situazioni percepite come pericolose e stati considerati sicuri. Questo ha confermato un difetto previsto della politica a regole, che essendo nettamente divisa in rami decisionali, impedisce un comportamento fluido e continuo. Inoltre, la mancanza di "memoria" nella politica fa sì che la decisione presa sia completamente indipendente dall’azione scelta nell’istante prima, rendendo quindi possibile il continuo salto tra due rami decisionali diversi e spesso in contrapposizione. Questo si traduceva in una guida discontinua, poco confortevole, che spesso portava a percezioni di insicurezza da parte del passeggero. A fronte di questo problema, che è intrinsicamente legato alla struttura delle regole, si è deciso di rispondere cambiando lo spazio di azioni, portando la decisione dell’agente, e quindi l’azione in uscita dalla politica, ad un più alto livello. In questo nuovo contesto, l’agente non definisce più l’accelerazione del veicolo, ma prende decisioni più "strategiche", che si possono definire di lungo periodo, come ad esempio il tempo di ingresso nell’incrocio.L’interpretazione di queste decisioni di alto livello in azioni operative è lasciata ad un pianificatore a valle della politica, il quale, ricevuto il tempo di ingresso desiderato, pianifica il profilo di accelerazione futuro, traducendolo in uno stile di guida confortevole. In questa nuova architettura del processo decisionale, che si può definire a due stadi, la politica di alto livello prende decisioni strategiche che sono poi convertite in azioni operative dal pianificatore a valle. Il problema della politica è stato affrontato secondo diversi approcci. In un primo tentativo si è cercato di usare una rete neurale, tuttavia gli scarsi risultati e l’impossibilità di interpretazione del processo decisionale hanno portato ad un ritorno della politica a regole. Le vecchie regole sono state quindi riadattate per il nuovo spazio di azioni. Queste hanno portato risultati ancora poco soddisfacenti da un punto di vista comportamentale dell’agente che, sebbene sicuro, mostrava spesso indecisione e mancanza di risolutezza nell’affrontare l’incrocio, anche quando questo era completamente libero e sicuro. Inoltre, le vecchie regole erano basate su variabili calcolate che non permettevano, anche in una politica trasparente come quella a regole, una chiara interpretazione. Si è resa necessaria quindi una riscrittura della politica, con l’obiettivo di avere un albero decisionale chiaro e interpretabile, che risolvesse i problemi di lentezza e indecisione dell’agente. Con questa nuova impostazione, basata su una politica a regole nuove con pianificatore a valle, i risultati si sono rivelati soddisfacenti, prospettando future possibilità di sviluppo in quella direzione. Il progetto è stato svolto in collaborazione con Magneti Marelli S.p.A., un’azienda protagonista nello sviluppo di soluzioni tecnologicamente avanzate per l’ industria automobilistica internazionale.