Deep feature extraction for sample-efficient reinforcement learning

Deep reinforcement learning (DRL) has been under the spotlight of artificial intelligence research in recent years, enabling reinforcement learning agents to solve control problems that were previously considered intractable. The most effective DRL methods, however, require a great amount of training samples (in the order of tens of millions) in order to learn good policies even on simple environments, making them a poor choice in real-world situations where the collection of samples is expensive. In this work, we propose a sample-efficient DRL algorithm that combines unsupervised deep learning to extract a representation of the environment, and batch reinforcement learning to learn a control policy using this new state space. We also add an intermediate step of feature selection on the extracted representation in order to reduce the computational requirements of our agent to the minimum. We test our algorithm on the Atari games environments, and compare the performance of our agent to that of the DQN algorithm by Mnih et al. (2015). We show that even if the final performance of our agent amounts to a quarter of DQN’s, we are able to achieve good sample efficiency and a better performance on small datasets.

L’apprendimento profondo per rinforzo (in inglese deep reinforcement learning - DRL) è recentemente diventato il centro dell’attenzione nel campo dell’intelligenza artificiale, per la sua capacità senza precedenti nel risolvere problemi di controllo considerati fino ad ora inavvicinabili. A partire dalla pubblicazione dell’algoritmo deep Q-learning (DQN) di Mnih et al., il campo dell’apprendimento per rinforzo ha vissuto un vero e proprio rinascimento, caratterizzato da un susseguirsi di pubblicazioni con algoritmi di controllo sempre più efficaci nel risolvere ambienti ad alta dimensionalità, con prestazioni simili o superiori agli esseri umani. Tuttavia, una caratteristica comune agli algoritmi di DRL è la necessità di utilizzare un enorme numero di campioni di addestramento per arrivare a convergenza. Alcune delle pubblicazioni più recenti cercano di affrontare la problematica, riuscendo però ad abbassare questo numero al massimo di un ordine di grandezza. Lo scopo di questa tesi è presentare un algoritmo di DRL che riesca ad apprendere politiche di controllo soddisfacenti in ambienti complessi, utilizzando solo una frazione dei campioni necessari agli algoritmi dello stato dell’arte. Il nostro agente utilizza l’apprendimento profondo non supervisionato per estrarre una rappresentazione astratta dell’ambiente, e l’apprendimento per rinforzo in modalità batch per ricavare una politica di controllo a partire da questo nuovo spazio degli stati. Aggiungiamo, inoltre, una procedura di selezione delle feature applicata alla rappresentazione estratta dall’ambiente, in modo da ridurre al minimo i requisiti computazionali del nostro agente. In fase sperimentale, applichiamo il nostro algoritmo ad alcuni ambienti di test dei sopracitati giochi Atari, confrontandolo con le prestazioni di DQN. Come risultato principale, mostriamo che il nostro agente è in grado di raggiungere in media un quarto dei punteggi ottenuti da DQN sugli stessi ambienti, ma utilizzando circa un centesimo dei campioni di addestramento. Mostriamo inoltre che, a parità di campioni raccolti dal nostro algoritmo per raggiungere le migliori prestazioni, i punteggi ottenuti dal nostro agente sono in media otto volte più alti di quelli di DQN. Si veda la tesi depositata per una versione estesa di questo abstract.