Residual and selective-tracking meta-reinforcement learning for MPC-based building temperature control

Building HVAC temperature regulation is challenged by slow thermal dynamics, hard constraints, and parametric uncertainty, which can make control design quite complex in general, and in particular MPC overly conservative under model mismatch. This thesis addresses indoor temperature control under uncertainty through MPC, selected for its explicit constraint handling capability, suitably integrated with Reinforcement Learning techniques to handle large uncertainties. The specific goal is to hierarchically integrate Meta-Reinforcement Learning (Meta-RL) with a conservative supervisory MPC to reduce energy consumption while preserving acceptable comfort. The MPC is initialized with a worst-case parameterization within uncertainty bounds and an 8 hours prediction horizon. Meta-RL relies on a low-dimensional latent context variable z: during training, a parameter-privileged encoder produces z, whereas at deployment z is inferred from measured trajectories by an LSTM-based Adaptation Module after an 8-day data-collection phase. Two different schemes are proposed: (i) Residual Meta-RL, applying a bounded additive correction to the MPC setpoint; and (ii) Selective-Tracking, which modulates the MPC objective via a binary switch that activates/deactivates the tracking term. To evaluate the performance of the innovative control solutions here proposed, a real test case has been adopted, namely a real house fully equipped with remote sensing and actuating facilities, located in Denmark and managed by Denmark Technical University. In particular, the testing has been performed against a dedicated detailed simulation model. For comparison reasons, an adaptive MPC benchmark using an Extended Kalman Filter (EKF) has also been evaluated. Results show that both Meta-RL augmentations reduce energy consumption relative to the conservative MPC baseline of around 6% to 19%, while keeping RMSE of tracking error below 0.17°C. They also outperform the adaptive MPC both in energy consumption and tracking error. The positive results obtained thus quantify an explicit energy-comfort trade-off consistent with mitigating worst-case conservatism under parametric uncertainty without online model re-identification, which paves the way to real life implementation.

La regolazione della temperatura negli edifici tramite sistemi HVAC è resa complessa da dinamiche termiche lente, vincoli operativi stringenti e incertezze parametriche. In queste condizioni, un Model Predictive Control (MPC) può diventare eccessivamente conservativo quando il modello non rappresenta accuratamente l’impianto reale. Questa tesi affronta il controllo della temperatura interna in presenza di incertezza mediante un approccio basato su MPC, scelto per la gestione esplicita dei vincoli, e lo integra con tecniche di Reinforcement Learning per ridurre la sensibilità a variazioni parametriche anche significative. L’obiettivo è integrare un Meta-Reinforcement Learning (Meta-RL) in una struttura gerarchica con un MPC supervisore conservativo, con lo scopo di ridurre il consumo energetico mantenendo un comfort accettabile. L’MPC è inizializzato con una parametrizzazione "worst-case" all’interno di intervalli d’incertezza e utilizza un orizzonte di predizione di 8 ore. Il Meta-RL impiega una variabile di contesto latente a bassa dimensionalità z: in addestramento, un encoder con accesso privilegiato ai parametri genera z; in fase di impiego z viene stimata da traiettorie misurate tramite un Modulo di Adattamento basato su LSTM, dopo una fase iniziale di raccolta dati della durata di 8 giorni. Sono proposti due schemi di integrazione: (i) Residual Meta-RL, che applica una correzione additiva limitata al setpoint calcolato dall’MPC; (ii) Selective-Tracking, che modifica la funzione obiettivo dell’MPC mediante una variabile binaria che attiva/disattiva il termine di tracking. Per valutare le prestazioni delle soluzioni di controllo innovative proposte, è stato adottato un caso di studio reale: un’abitazione situata in Danimarca, completamente equipaggiata con sistemi di misura e attuazione remoti, e gestita dalla Technical University of Denmark. In particolare, i test sono stati condotti utilizzando un modello di simulazione dedicato. Come termine di confronto è incluso anche un benchmark di Adaptive MPC basato su Extended Kalman Filter (EKF). I risultati mostrano che entrambe le integrazioni Meta-RL riducono il consumo energetico rispetto all’MPC conservativo di circa 6-19%, mantenendo l’RMSE dell’errore di tracking al di sotto di 0.17°C, e superano l’Adaptive MPC sia in termini di energia sia di accuratezza. Nel complesso, i risultati evidenziano un compromesso tra consumo energetico e comfort, coerente con una minore conservatività rispetto all’impostazione worst-case in presenza di incertezza parametrica. Inoltre, l’approccio non richiede ri-identificazione online del modello, a supporto della sua fattibilità in scenari reali.