In recent years, researches in control community have become interested in Reinforcement Learning, a subset of machine learning focused on developing autonomous agents. Specifically, Reinforcement Learning can be applied to tune a controller, or policy, by simply using data collected from the system, eliminating the need for a model. Hence, this thesis studies how Reinforcement Learning can be used as a data-driven approach to solve an optimal control problem. Generally, solving optimal control problems involves a technique called Approximate Dynamic Programming, which, however, is not a model-free approach. In brief, this technique consists in the continuous iteration of two steps: policy evaluation, which calculates an estimation of the cost of applying the policy, namely the policy's value, and policy improvement, where the policy is adjusted to obtain a lower cost. Our work begins with a detailed analysis of Approximate Dynamic Programming, with a particular attention to problems that are usually overlooked in existing literature. Next, we demonstrate how an extension of Approximate Dynamic Programming leads to model-free Reinforcement Learning methods. Then, we introduce a novel Reinforcement Learning algorithm to address the limitations of the methods that have been previously applied to control. In particular, our approach enables simultaneously learning the policy while controlling the system, also providing a better estimation of the policy's value compared to existing approaches, as empirically demonstrated. Furthermore, we use this algorithm to design an optimal tracking controller for a quadruple tank process that can guarantee zero steady-state error. Simulation results reveal that our controller outperforms existing approaches in terms of tracking error and speed of response.

Negli ultimi anni, molti ricercatori che si occupano di sistemi di controllo si sono interessati al Reinforcement Learning, un'area dell'apprendimento automatico che si concentra sullo sviluppo di agenti autonomi. In particolare, il Reinforcement Learning può essere applicato nella progettazione del controllore, qui chiamato policy, andando ad usare solamente i dati raccolti dal sistema, senza la necessità di un modello. Questa tesi studia come il Reinforcement Learning possa essere utilizzato come approccio data-driven per risolvere problemi di controllo ottimo. Per risolvere problemi di controllo ottimo viene spesso utilizzata una tecnica chiamata Approximate Dynamic Programming, che tuttavia è un approccio che necessita di un modello del sistema. In breve, questa tecnica consiste nella continua iterazione di due fasi: la policy evaluation, che calcola una stima del costo della policy, ovvero il value della policy, e la policy improvement, in cui la policy viene modificata per ottenere un costo inferiore. Il nostro lavoro inizia con un'analisi critica dei metodi di Approximate Dynamic Programming, con particolare attenzione ai problemi che sono solitamente trascurati nella letteratura esistente. Successivamente, si dimostra come l'Approximate Dynamic Programming possa essere esteso portando alla formulazione del Reinforcement Learning. Quindi, si introduce un'innovativo algoritmo di Reinforcement Learning per superare le limitazione dei metodi che sono stati precedentemente sviluppati per risolvere un problema di controllo. In particolare, il nostro approccio consente di migliorare la policy mentre questa viene usata per controllare il sistema, fornendo anche una migliore stima del value della policy rispetto agli approcci esistenti, come dimostrato empiricamente. Inoltre, il nostro algoritmo viene applicato per progettare un controllore per un problema di controllo ottimo di un sistema a quattro serbatoi, in cui l'obiettivo del controllo è l'inseguimento di uno specifico riferimento. I risultati delle simulazioni rivelano che il nostro algoritmo è in grado di garantire errore a regime nullo e che il nostro controllore è migliore degli approcci esistenti in termini di errore di inseguimento e velocità di risposta.

A Novel Approach for Reinforcement Learning-Based Optimal Control

MUSSITA, GIACOMO;PATA, LORENZO
2022/2023

Abstract

In recent years, researches in control community have become interested in Reinforcement Learning, a subset of machine learning focused on developing autonomous agents. Specifically, Reinforcement Learning can be applied to tune a controller, or policy, by simply using data collected from the system, eliminating the need for a model. Hence, this thesis studies how Reinforcement Learning can be used as a data-driven approach to solve an optimal control problem. Generally, solving optimal control problems involves a technique called Approximate Dynamic Programming, which, however, is not a model-free approach. In brief, this technique consists in the continuous iteration of two steps: policy evaluation, which calculates an estimation of the cost of applying the policy, namely the policy's value, and policy improvement, where the policy is adjusted to obtain a lower cost. Our work begins with a detailed analysis of Approximate Dynamic Programming, with a particular attention to problems that are usually overlooked in existing literature. Next, we demonstrate how an extension of Approximate Dynamic Programming leads to model-free Reinforcement Learning methods. Then, we introduce a novel Reinforcement Learning algorithm to address the limitations of the methods that have been previously applied to control. In particular, our approach enables simultaneously learning the policy while controlling the system, also providing a better estimation of the policy's value compared to existing approaches, as empirically demonstrated. Furthermore, we use this algorithm to design an optimal tracking controller for a quadruple tank process that can guarantee zero steady-state error. Simulation results reveal that our controller outperforms existing approaches in terms of tracking error and speed of response.
LA BELLA, ALESSIO
ING - Scuola di Ingegneria Industriale e dell'Informazione
19-dic-2023
2022/2023
Negli ultimi anni, molti ricercatori che si occupano di sistemi di controllo si sono interessati al Reinforcement Learning, un'area dell'apprendimento automatico che si concentra sullo sviluppo di agenti autonomi. In particolare, il Reinforcement Learning può essere applicato nella progettazione del controllore, qui chiamato policy, andando ad usare solamente i dati raccolti dal sistema, senza la necessità di un modello. Questa tesi studia come il Reinforcement Learning possa essere utilizzato come approccio data-driven per risolvere problemi di controllo ottimo. Per risolvere problemi di controllo ottimo viene spesso utilizzata una tecnica chiamata Approximate Dynamic Programming, che tuttavia è un approccio che necessita di un modello del sistema. In breve, questa tecnica consiste nella continua iterazione di due fasi: la policy evaluation, che calcola una stima del costo della policy, ovvero il value della policy, e la policy improvement, in cui la policy viene modificata per ottenere un costo inferiore. Il nostro lavoro inizia con un'analisi critica dei metodi di Approximate Dynamic Programming, con particolare attenzione ai problemi che sono solitamente trascurati nella letteratura esistente. Successivamente, si dimostra come l'Approximate Dynamic Programming possa essere esteso portando alla formulazione del Reinforcement Learning. Quindi, si introduce un'innovativo algoritmo di Reinforcement Learning per superare le limitazione dei metodi che sono stati precedentemente sviluppati per risolvere un problema di controllo. In particolare, il nostro approccio consente di migliorare la policy mentre questa viene usata per controllare il sistema, fornendo anche una migliore stima del value della policy rispetto agli approcci esistenti, come dimostrato empiricamente. Inoltre, il nostro algoritmo viene applicato per progettare un controllore per un problema di controllo ottimo di un sistema a quattro serbatoi, in cui l'obiettivo del controllo è l'inseguimento di uno specifico riferimento. I risultati delle simulazioni rivelano che il nostro algoritmo è in grado di garantire errore a regime nullo e che il nostro controllore è migliore degli approcci esistenti in termini di errore di inseguimento e velocità di risposta.
File allegati
File Dimensione Formato  
2023_12_Mussita_Pata_Executive Summary_V2.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: executive summary
Dimensione 1.88 MB
Formato Adobe PDF
1.88 MB Adobe PDF   Visualizza/Apri
2023_12_Mussita_Pata_Tesi_V2.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: testo tesi
Dimensione 10.27 MB
Formato Adobe PDF
10.27 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/215251