Lo Stratega : predicting Formula 1 race strategies with reinforcement learning

Formula 1 is considered the pinnacle of international motor racing for open-wheeled, high-performance, single-seater cars, where 20 drivers are grouped into 10 constructor teams and compete to secure individual and team titles. The standard season consists of several circuit-based racing events, during which drivers earn points based on their finishing positions. Tire degradation and management play a crucial role in influencing race outcomes and progression as tire grip decreases with usage, leading to reduced overall performance. Each race features three tire compounds with varying levels of grip and durability - White Hard, Red Soft, and Yellow Medium. Drivers can replace their consumed tires during a race through a pit stop, whose timing is crucial to securing the best final placement. The tire sequence and the number of laps they are used for are referred to as strategy. The problem at hand is an instance of a decision-making problem optimizing a long-term reward in a Multi-Agent System, either solvable with single-agent or multi-agent Reinforcement Learning. In this study, we introduce a Reinforcement Learning training framework called Stratega, which is based on a DQN agent and exploits the benefits of both single-agent and multi-agent approaches. The framework employs Curricular Scaled Q-Learning, a technique that simplifies the training environment by exploiting dynamic similarity from similitude theory. The results show that the policy developed by Stratega outperforms both pure single-agent and pure multi-agent frameworks, enabling pre-race planning and in-race strategy adaptation.

La Formula 1 è considerata l’apice delle competizioni automobilistiche internazionali per vetture monoposto ad alte prestazioni con ruote scoperte, in cui 20 piloti divisi in 10 scuderie competono per vincere trofei individuali e di squadra. La stagione tipica include una ventina di gare su circuito alla fine delle quali i piloti ricevono un numero di punti in base alla loro posizione di arrivo. Il degrado e la gestione degli pneumatici giocano un ruolo molto importante nello sviluppo della gara, poiché un loro eccessivo utilizzo riduce drasticamente le prestazioni globali della vettura. Ogni gara prescrive l’utilizzo di tre mescole - Dura Bianca, Media Gialla e Rossa Morbida. I piloti possono sostituire i loro pneumatici consumati con una mossa conosciuta come pit stop. Il tempismo dei pit stop è fondamentale per assicurarsi un consistente vantaggio nella battaglia per le prime posizioni. La sequenza e il numero di giri di utilizzo di una mescola è conosciuta come strategia. Il problema in esame è un’istanza di un processo decisionale ottimizzante un obiettivo a lungo termine in un sistema multi-agente, risolvibile attraverso tecniche di apprendimento per rinforzo ad agente singolo o multi-agente. In questo lavoro di tesi, introduciamo un algoritmo di apprendimento per rinforzo profondo chiamato Stratega, basato su un agente DQN e sfruttante i benefici di tecniche a singlo agente o multi-agente. Tale algoritmo adotta l’apprendimento-q scalato curriculare, una tecnica che semplifica l’ambiente di simulazione sfruttando la similarità dinamica dalla teoria della similitudine. I risultati dimostrano che Stratega sovraperforma rispetto a metodi puramente ad agente singolo o multi-agente, permettendo sia pianificazione pre-gara, sia adattamento della strategia in gara.