A reinforcement learning algorithm for temperature control in buildings

Energy saving of HVAC system in the buildings sector is still an important research eld, also with regard to pollution. In addition to this, other factors like comfort and health of people cannot be neglected. This trade-off makes more difficult the task to control e ectively the consuming caused by HVAC. As the researchs go forward, new techniques to solve this problem are developed. In the last years more focus is put on Machine Learning, also thank to the improvements in computational power of computers. From ML a specific branch named Reinforcement Learning is concerned with learning models that take decisions, a synonymous of controllers. This thesis focuses on a particular RL algorithm called Actor-Critic. Essentially this algorithm is divided in two parts: the Actor that takes the decisions, that are the control actions that feed the plant, and the Critic which evaluates these decisions and acts accordingly by updating the AC model. In the following document a description of the building in analysis is given presenting all the di erent models and the local controllers. After that, an insight of the structure and mathematical framework of the AC is presented paying particular attention on the training and validation of the controller. Then the focus passes on the innovative part of the work with some variants of the AC. Finally a complete comparison of performances between all the different AC versions is carried out, highlighting pros and cons with some guidelines on future development.

Il risparmio energetico dei sistemi HVAC nel settore degli edifici è ancora un importante campo di ricerca, anche per quanto riguarda l'inquinamento. Oltre a questo, altri fattori come il comfort e la salute delle persone non possono essere trascurati. Questo compromesso rende più difficile il compito di controllare efficacemente il consumo causato dall'HVAC. Man mano che le ricerche vanno avanti, vengono sviluppate nuove tecniche per risolvere questo problema. Negli ultimi anni si è posta maggiore attenzione al Machine Learning, anche grazie ai miglioramenti nella potenza di calcolo dei computer. Dal ML un ramo specifico chiamato Reinforcement Learning è interessato a modelli di apprendimento che prendono decisioni, un sinonimo di controllori. Questa ricerca si concentra su un particolare algoritmo RL chiamato Actor-Critic. Essenzialmente questo algoritmo è diviso in due parti: l'Actor che prende le decisioni, che sono le azioni di controllo che alimentano l'impianto, e il Critic che valuta queste decisioni e agisce di conseguenza aggiornando il modello AC. Nel seguente documento viene fornita una descrizione dell'edificio in analisi, presentando tutti i diversi modelli e i controllori locali. Successivamente viene presentato un approfondimento della struttura e del quadro matematico dell'AC ponendo particolare attenzione sull'apprendimento e sulla validazione del controllore. Dopodiché l'esposizione passa alla parte innovativa di questo lavoro con alcune varianti dell'AC. Infine viene quindi effettuato un confronto completo delle prestazioni tra tutte le diverse versioni dell'AC, evidenziando pro e contro con alcune linee guida sullo sviluppo futuro.