Online learning for PID controller tuning

Many industrial and technological processes utilize Proportional-Integral-Derivative (PID) controllers due to their simplicity and satisfactory performance, making them widely applicable to numerous real-world control problems. A PID controller can be adapted to a specific technological system to obtain a desired behavior by properly tuning its parameters. Various PID tuning methods have been developed, starting from early rule-based approaches and model-based methods, to more recent works where Reinforcement Learning (RL) and Online Learning techniques have been employed for PID tuning in simulated environments. The ability of RL to adaptively fine-tune control parameters based on interaction with the environment makes it highly suitable for this task, and online learning enables the system to handle continuous streams of data. However, previous works often assume complete knowledge of the system model, require expert knowledge, propose complex solutions, work in highly specific settings, or focus solely on PI tuning for simplicity. Moreover, none of these studies focus on regret minimization, i.e., minimizing the costs during the tuning process. In this thesis we propose a novel optimistic regret minimization algorithm, PID-Tuning, which address the PID tuning problem and overcomes the aforementioned challenges. The algorithm, based on the Optimism in The Face of Uncertainty (OFU) principle, successfully handles the correlation introduced by closed-loop control without assuming additional properties on the action signal, as many previous works did. We derive a concentration guarantee on the parameters of the system and we provide a regret analysis, proving that the algorithm achieves sub-linear regret. Finally, we conduct a numerical validation on a synthetic environment to show the effectiveness of PID-Tuning.

Molti processi industriali e tecnologici utilizzano i controllori Proporzionali-Integrali-Derivativi (PID), i quali grazie alla loro semplicità e alle performance che offrono vengono ampiamente applicati a numerosi problemi di controllo nel mondo reale. Per ottenere il comportamento desiderato in un dato sistema, è possibile impiegare un controllore PID, i cui parametri devono essere tarati correttamente. I primi approcci per la taratura dei PID si basano su regole empiriche, oppure assumono di conoscere il modello del sistema in questione o, quantomeno, una sua approssimazione. Gli approcci più recenti, invece, impiegano tecniche innovative di Apprendimento per Rinforzo (RL) e Online Learning. Le metodologie RL hanno la capacità di ottimizzare in modo adattivo i parametri di controllo attraverso l'interazione con l'ambiente e le tecniche di Online Learning permettono al sistema di gestire flussi continui di dati, rendendo questi approcci ideali per la taratura dei PID. Tuttavia, i metodi menzionati presentano diversi limiti, tra cui la necessità di conoscere il modello del sistema, il bisogno di competenze specialistiche per la taratura manuale, il contesto molto specifico o il fatto che spesso la soluzione sia applicabile esclusivamente a controllori PI. Inoltre, nessuno di questi studi ha come obiettivo la minimizzazione del regret, ossia la minimizzazione dei costi durante il processo di taratura. In questa tesi proponiamo un nuovo algoritmo ottimistico per la minimizzazione del regret, PID-Tuning, che affronta il problema della taratura dei PID e offre una soluzione ai limiti menzionati. L'algoritmo, il quale si basa sul principio dell’ottimismo a fronte dell’incertezza (OFU), gestisce con successo la correlazione introdotta dal controllo in anello chiuso senza fare ulteriori assunzioni sui segnali del sistema, come invece viene fatto in altri lavori. Successivamente, deriviamo una garanzia di concentrazione sui parametri del sistema e forniamo un'analisi teorica del regret, dimostrando che il nostro algoritmo presenta un regret sublineare. Infine, effettuiamo una validazione numerica in un ambiente sintetico per mostrare l'efficacia dell'algoritmo.