Studio e analisi di algoritmi di apprendimento per rinforzo policy gradient per la risoluzione di problemi decisionali multiobiettivo

Reinforcement Learning is an area of Machine Learning concerned with sequential decision problems, modeled as Markov Decision Processes (MDPs). Some of the most representative RL techniques are Policy Gradient methods, that perform a direct search of an optimal strategy exploiting the gradient of the objective function. Multi-Objective Reinforcement Learning (MORL) is a particular field of study of RL and deals with Multi-Objective Markov Decision Processes (MOMDPs), an extension of MDPs that allows to describe complex problems with many conflicting objectives. Despite the popularity of RL methods, the increasing demand of multi-objective control applications and the fact that gradient ascent algorithms have been already proposed to numerically solve multi-objective optimization problems, MORL is still a relatively young and unexplored field of research, especially for what concerns policy gradient methods. With this thesis we want to provide a deep study about MOMDPs and the application of policy gradient methods for their resolution. Our contributions are algorithmic and empirical: we propose two novel MORL policy gradient algorithms and an accurate empirical analysis of their performance. The algorithms, called Radial Algorithm (RA) and Pareto-Following Algorithm (PFA), return a set of strategies representing the best compromises among the objective functions exploiting the gradient of the objective functions. We conducted experiments on many test cases in order to examine RA and PFA performances and to investigate different aspects of multi-objective optimization. In both cases the proposed methods outperform some state-of-the-art MORL algorithms and show their effectiveness in approximating optimal strategies.

Il Reinforcement Learning (RL) è un'area di ricerca del Machine Learning che affronta problemi di decisione sequenziali, modellati come Markov Decision Process (MDP). Alcuni dei metodi più rappresentativi del RL sono i metodi Policy Gradient, che eseguono una ricerca della strategia ottima basandosi sul gradiente delle funzioni obiettivo. Un particolare ambito di ricerca del RL è quello dei Multi-Objective Markov Decision Process, un'estensione degli MDP che permette di descrivere complessi problemi con più obiettivi conflittuali. Nonostante il crescente successo di metodi RL e l'alta richiesta di sistemi di controllo multiobiettivo, il Multi-Objective Reinforcement Learning è ancora un'area di ricerca relativamente giovane e inesplorata. In particolare malgrado i progressi compiuti da algoritmi basati su discesa del gradiente nell'ambito dell'Ottimizzazione Matematica Multiobiettivo (MOO), sono pochissime le loro applicazioni in campo MORL. Con questa tesi vogliamo fornire uno studio approfondito dei MOMDP e dell'utilizzo di metodi policy gradient per la loro risoluzione. I nostri contributi sono di tipo algoritmico ed empirico: proponiamo due nuovi algoritmi MORL policy gradient e un'ampia analisi empirica delle loro prestazioni. Gli algoritmi presentati, chiamati Radial Algorithm (RA) e Pareto-Following Algorithm (PFA), restituiscono un insieme di strategie che rappresentano i migliori compromessi fra gli obiettivi sfruttando le informazioni del gradiente delle funzioni obiettivo. Abbiamo condotto esperimenti su più casi di test per analizzare le prestazioni del RA e del PFA, in modo da affrontare diverse problematiche dell'apprendimento MORL. Entrambi sono stati confrontati con alcuni fra i metodi più recenti presenti in letteratura e i risultati hanno mostrato la loro efficacia nell'approssimare strategie ottimali, ottenendo prestazioni superiori rispetto agli algoritmi di confronto.