This thesis presents a novel approach to temperature control in buildings using Meta-Reinforcement Learning (Meta-RL) techniques to develop an adaptable control algorithm capable of managing a large range of buildings, characterized by different thermal dynamics. The research employs a simplified building model for training the Meta-RL agents in a simulated environment, followed by validation against both this model and a highly accurate reference model representing Building 25 of Politecnico di Milano. The algorithm is developed in three progressive versions, with each version incorporates an additional uncertain parameter to improve control robustness, starting from the most impactful ones. The first version incorporates two uncertain parameters, establishing a foundation for the control framework and training process. Two Actor-Critic architecture are employed, the first one creates a suitable encoding of privileged information about thermal dynamics, the second one uses this encoding and additional information from the environment for effective temperature management. Later, the framework transitions to a Long-Short Term Memory Neural Network to replace the first Actor-Critic agent, that eliminates the dependency on privileged information by inferring the encoding from building state data. Subsequent versions of the algorithm incorporate additional uncertain parameters, demonstrating the capability to maintain performance across a wider range of buildings. The final version integrates four uncertain parameters, proving that the algorithm can successfully adapt its control strategy while minimizing energy consumption and maximizing occupant comfort. Through extensive validation, the developed Meta-RL algorithm not only demonstrates adaptability to various building conditions but also highlights the potential for future scalability. The results indicate a significant improvement in control performance, emphasizing the effectiveness of employing a low-dimensional latent variable encoding to simplify complex building dynamics.
Il presente lavoro di tesi descrive un approccio innovativo al controllo della temperatura negli edifici utilizzando il Meta-Reinforcement Learning (Meta-RL) per sviluppare un algoritmo di controllo adattabile, in grado di gestire un ampio spettro di edifici caratterizzati da diverse dinamiche termiche. La ricerca impiega un modello edilizio semplificato per addestrare gli agenti Meta-RL in un ambiente simulato, seguito da una validazione sia rispetto a tale modello, sia ad un modello di riferimento altamente accurato che rappresenta l'Edificio 25 del Politecnico di Milano. L'algoritmo è sviluppato in tre versioni progressive, ciascuna delle quali aumenta il numero di parametri incerti per migliorare la robustezza del controllo, partendo selezionando quelli che hanno un impatto maggiore. La prima versione incorpora due parametri incerti, stabilendo una base per l'architettura di controllo e il processo di addestramento. Vengono impiegate due architetture Actor-Critic: la prima utilizza informazioni privilegiate sulle dinamiche termiche per creare una codifica di queste informazioni, la seconda utilizza tale codifica e informazioni aggiuntive dall'ambiente per una gestione efficace della temperatura. Successivamente, l'architettura si evolve in un Modulo di Adattamento basato su Long-Short Term Memory Neural Network per sostituire il primo agente Actor-Critic, eliminando la dipendenza dalle informazioni privilegiate attraverso una stima della codifica basata sui dati di stato dell'edificio. Le versioni successive dell'algoritmo incorporano ulteriori parametri incerti, dimostrando la capacità di mantenere le prestazioni su un'ampia gamma di edifici. L'ultima versione integra quattro parametri incerti, dimostrando che l'algoritmo può adattare con successo la propria strategia di controllo riducendo al minimo il consumo energetico e massimizzando il comfort degli occupanti. Attraverso una validazione estesa, l'algoritmo Meta-RL sviluppato non solo dimostra l'adattabilità a varie condizioni edilizie, ma evidenzia anche il potenziale per una futura scalabilità.
Meta-reinforcement learning techniques for advanced temperature control in buildings
MASTRANGELO, BRUNO MARIA
2023/2024
Abstract
This thesis presents a novel approach to temperature control in buildings using Meta-Reinforcement Learning (Meta-RL) techniques to develop an adaptable control algorithm capable of managing a large range of buildings, characterized by different thermal dynamics. The research employs a simplified building model for training the Meta-RL agents in a simulated environment, followed by validation against both this model and a highly accurate reference model representing Building 25 of Politecnico di Milano. The algorithm is developed in three progressive versions, with each version incorporates an additional uncertain parameter to improve control robustness, starting from the most impactful ones. The first version incorporates two uncertain parameters, establishing a foundation for the control framework and training process. Two Actor-Critic architecture are employed, the first one creates a suitable encoding of privileged information about thermal dynamics, the second one uses this encoding and additional information from the environment for effective temperature management. Later, the framework transitions to a Long-Short Term Memory Neural Network to replace the first Actor-Critic agent, that eliminates the dependency on privileged information by inferring the encoding from building state data. Subsequent versions of the algorithm incorporate additional uncertain parameters, demonstrating the capability to maintain performance across a wider range of buildings. The final version integrates four uncertain parameters, proving that the algorithm can successfully adapt its control strategy while minimizing energy consumption and maximizing occupant comfort. Through extensive validation, the developed Meta-RL algorithm not only demonstrates adaptability to various building conditions but also highlights the potential for future scalability. The results indicate a significant improvement in control performance, emphasizing the effectiveness of employing a low-dimensional latent variable encoding to simplify complex building dynamics.File | Dimensione | Formato | |
---|---|---|---|
2024_12_Mastrangelo_Tesi.pdf
non accessibile
Descrizione: Tesi
Dimensione
6.65 MB
Formato
Adobe PDF
|
6.65 MB | Adobe PDF | Visualizza/Apri |
2024_12_Mastrangelo_Executive Summary.pdf
non accessibile
Descrizione: Executive Summary
Dimensione
1.5 MB
Formato
Adobe PDF
|
1.5 MB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/229813