Pushing a Formula 2 car to its limits with Soft Actor-Critic Deep Reinforcement Learning on Assetto Corsa

Deep Reinforcement Learning (DRL) has demonstrated remarkable capabilities in various control tasks, including autonomous driving. In this work, we develop a self-driving DRL agent trained using the Soft Actor-Critic (SAC) algorithm, with the goal of achieving human-like performance in lap time minimisation on a racing circuit. Unlike existing implementations, we design and develop a SAC algorithm from scratch, specifically optimised for real-time training in the Assetto Corsa (AC) racing simulator. This approach enables greater customisation to meet the unique constraints and requirements of the simulation environment, including an efficient socket-based communication interface to minimise latency, as well as extensive hyper-parameter tuning, with particular emphasis on exploration strategies and standard deviation configurations. We also analyse the impact of different observation sets on training efficiency and performance, ensuring an optimal balance between information richness and computational cost. Finally, we examine the design of the reward function, as it plays a crucial role in shaping the learning process. To evaluate the effectiveness of our approach, we compare the trained DRL-SAC agent against a professional Formula 2 driver under identical simulation conditions. This benchmark highlights the strengths and limitations of AI-driven racing strategies, providing insights into their potential applications beyond racing environment.

Il Deep Reinforcement Learning (DRL) ha spesso dimostrato una capacità straordinarie in diversi ambiti di controllo, inclusa la guida autonoma. In questa tesi, è sviluppato un agente di guida autonoma basato sul DRL e addestrato utilizzando l'algoritmo Soft Actor-Critic (SAC). L'obiettivo è quello di raggiungere prestazioni simili a quelle di un essere umano in termin di tempo sul giro in un dato circuito. A differenza delle implementazioni preesistenti, in questo lavoro è progettato e sviluppato da zero un algoritmo SAC, ottimizzandolo specificamente per l'addestramento in tempo reale nel simulatore di guida Assetto Corsa (AC). Questo approccio consente una maggiore personalizzazione per soddisfare i vincoli e i requisiti specifici dell'ambiente di simulazione. I principali contributi portati da questa tesi includono un'interfaccia di comunicazione basata su socket per ridurre la latenza e una messa a punto approfondita degli iperparametri, con particolare attenzione alle strategie di esplorazione e alla configurazione della deviazione standard. Inoltre, è analizzato l'impatto di diversi insiemi di osservazioni sull'efficienza dell'addestramento e sulle prestazioni, con l'obiettivo di garantire un equilibrio ottimale tra ricchezza informativa e costo computazionale. Infine, viene approfondita la progettazione della funzione di ricompensa, dal momento che svolge un ruolo cruciale nel guidare il processo di apprendimento. Infine, Per valutare l'efficacia del nostro approccio, confrontiamo l'agente DRL-SAC con un pilota professionista di Formula 2 nelle medesime condizioni di simulazione. Questo confronto evidenzia i punti di forza e i limiti delle strategie di guida basate sull'IA, offrendo spunti sulle loro potenziali applicazioni al di là del contesto delle corse.