Building systems, particularly Heating, Ventilation, and Air Conditioning (HVAC) systems, are prone to various operational issues that can significantly impact their performance. These issues, ranging from sensor malfunctions to equipment failures and suboptimal system operations, often result in a cascade of negative consequences. These include excessive energy consumption, inflated maintenance expenses, compromised indoor environmental quality. Research indicates that such system faults and inefficient controls can lead to energy wastage of 15% to 30% in buildings. In recent years, the widespread implementation of building automation systems, coupled with advancements in data analytics, sensor technology, and machine learning algorithms, has sparked growing interest in data-driven Fault Detection and Diagnostics (FDD) for HVAC systems. Many studies have explored traditional machine learning and deep learning models trained in supervised, semi-supervised and unsupervised ways. However, several gaps in the literature persist. These include a lack of studies in residential contexts, unclear understanding of temporal dependencies' importance, insufficient research on addressing labelled data challenges for unseen fault detection, and limited studies using real building data. This thesis aims to address several objectives. Firstly, it investigates the efficacy of select supervised methods in residential settings, focusing on a minimalist feature set to optimize practicality and efficiency. Secondly, the research evaluates the potential of multivariate time series classification algorithms for FDD, exploring their capacity to capture temporal patterns in HVAC system behaviour. Lastly, the study develops and tests a novel self-supervised learning algorithm. This approach leverages unlabelled data to accelerate the data annotation process, a step in overcoming the scarcity of labelled datasets in real-world scenarios. The performance of this self-supervised method is rigorously assessed using data from an actual building. To address the first objective, a case study was done on a residential building using simulated data. Extreme Gradient Boosting exhibited an accuracy of 85% using minimal features while accounting for the risk of overfitting. Moreover, interpretability methods were used to insure model transparency both in global and local model’s decision. For the second objective a benchmarking study was done on multiple multivariate time series classification algorithms used against open-source datasets. Deep learning-based algorithms exhibited the highest performance with an F1 score of 0.92, 0.85 and 0.61 respectively on the three datasets used. For the third objective, an innovative transformer-based self-supervised method was developed to leverage unlabelled data for fault detection. The method was coupled with dynamic thresholding technique called peak of threshold to detect more subtle faults. This approach aims to address the critical challenge of data annotation in real-world applications. The method was tested using data from a university campus building. The algorithm successfully identified various faults, primarily in the monitoring system, but also uncovered issues in the air handling unit scheduling. 

Gli impianti negli edifici, in particolare i sistemi di riscaldamento, ventilazione e condizionamento dell'aria (HVAC), sono soggetti a vari problemi operativi che possono influire significativamente sulle loro prestazioni. Questi problemi, che vanno dai malfunzionamenti dei sensori, ai guasti delle apparecchiature, e al funzionamento non ottimale del sistema, spesso provocano una serie di conseguenze negative, come un consumo energetico eccessivo, spese di manutenzione elevate e una qualità compromessa dell'ambiente interno. La letteratura scientifica indica che tali guasti e controlli inefficienti dei sistemi possono portare a uno spreco energetico compreso tra il 15% e il 30% negli edifici. Negli ultimi anni, l'implementazione diffusa dei sistemi di automazione degli edifici, insieme ai progressi nell'analisi dei dati, nella tecnologia dei sensori e negli algoritmi di machine learning, ha suscitato un crescente interesse per la rilevazione e la diagnostica dei guasti (FDD – Fault Detection and Diagnosis ) basata sui dati per i sistemi HVAC. Numerosi studi hanno esplorato modelli di machine learning tradizionali e deep learning addestrati in modalità supervisionata, semi-supervisionata e non supervisionata. Tuttavia, permangono diverse lacune nella letteratura. Queste includono una carenza di studi nei contesti di applicazioni residenziali, una comprensione poco chiara dell'importanza delle dipendenze temporali, una ricerca insufficiente sulla gestione delle sfide di dati non etichettati per la rilevazione di guasti sconosciuti e pochi studi che utilizzano dati di edifici reali. Questa tesi mira a raggiungere diversi obiettivi. In primo luogo, indaga l'efficacia di metodi supervisionati selezionati in contesti residenziali, concentrandosi su un set minimo di caratteristiche per ottimizzare la praticità e l'efficienza. In secondo luogo, la ricerca valuta il potenziale degli algoritmi di classificazione delle serie temporali “multivariate” per la FDD, esplorando la loro capacità di catturare schemi temporali nel comportamento dei sistemi HVAC. Infine, lo studio sviluppa e testa un nuovo algoritmo di apprendimento auto-supervisionato. Questo approccio sfrutta i dati non etichettati per accelerare il processo di annotazione dei dati, un passo per superare la scarsità di dataset etichettati in scenari reali. Le prestazioni di questo metodo auto-supervisionato sono state rigorosamente valutate utilizzando dati di un edificio reale. Per affrontare il primo obiettivo, è stato condotto uno studio su un edificio residenziale utilizzando dati simulati. L'Extreme Gradient Boosting ha mostrato un'accuratezza dell'85% utilizzando un numero minimo di caratteristiche, tenendo conto del rischio di overfitting. Inoltre, sono stati utilizzati metodi di interpretabilità per garantire la trasparenza del modello sia nelle decisioni globali che locali del modello. Per il secondo obiettivo, è stato condotto uno studio di benchmarking su più algoritmi di classificazione delle serie temporali multivariate utilizzati su dataset open-source. Gli algoritmi basati sul deep learning hanno mostrato le migliori prestazioni con un punteggio F1 di 0,92, 0,85 e 0,61 rispettivamente sui tre dataset utilizzati. Per il terzo obiettivo, è stato sviluppato un innovativo metodo auto-supervisionato basato sui cosiddetti “transformer” per sfruttare i dati non etichettati per la rilevazione dei guasti. Il metodo è stato abbinato a una tecnica di soglia dinamica chiamata “picco di soglia” per rilevare guasti più sottili. Questo approccio mira a risolvere la sfida critica dell'annotazione dei dati nelle applicazioni reali. Il metodo è stato testato utilizzando dati provenienti da un edificio del campus universitario. L'algoritmo ha identificato con successo vari guasti, principalmente nel sistema di monitoraggio, ma ha anche rilevato problemi nella programmazione dell'unità di trattamento dell'aria.

Data driven fault detection and diagnostics for HVAC systems in buildings

ABDOLLAH, MOHAMMAD ABDOLLAH FADEL
2023/2024

Abstract

Building systems, particularly Heating, Ventilation, and Air Conditioning (HVAC) systems, are prone to various operational issues that can significantly impact their performance. These issues, ranging from sensor malfunctions to equipment failures and suboptimal system operations, often result in a cascade of negative consequences. These include excessive energy consumption, inflated maintenance expenses, compromised indoor environmental quality. Research indicates that such system faults and inefficient controls can lead to energy wastage of 15% to 30% in buildings. In recent years, the widespread implementation of building automation systems, coupled with advancements in data analytics, sensor technology, and machine learning algorithms, has sparked growing interest in data-driven Fault Detection and Diagnostics (FDD) for HVAC systems. Many studies have explored traditional machine learning and deep learning models trained in supervised, semi-supervised and unsupervised ways. However, several gaps in the literature persist. These include a lack of studies in residential contexts, unclear understanding of temporal dependencies' importance, insufficient research on addressing labelled data challenges for unseen fault detection, and limited studies using real building data. This thesis aims to address several objectives. Firstly, it investigates the efficacy of select supervised methods in residential settings, focusing on a minimalist feature set to optimize practicality and efficiency. Secondly, the research evaluates the potential of multivariate time series classification algorithms for FDD, exploring their capacity to capture temporal patterns in HVAC system behaviour. Lastly, the study develops and tests a novel self-supervised learning algorithm. This approach leverages unlabelled data to accelerate the data annotation process, a step in overcoming the scarcity of labelled datasets in real-world scenarios. The performance of this self-supervised method is rigorously assessed using data from an actual building. To address the first objective, a case study was done on a residential building using simulated data. Extreme Gradient Boosting exhibited an accuracy of 85% using minimal features while accounting for the risk of overfitting. Moreover, interpretability methods were used to insure model transparency both in global and local model’s decision. For the second objective a benchmarking study was done on multiple multivariate time series classification algorithms used against open-source datasets. Deep learning-based algorithms exhibited the highest performance with an F1 score of 0.92, 0.85 and 0.61 respectively on the three datasets used. For the third objective, an innovative transformer-based self-supervised method was developed to leverage unlabelled data for fault detection. The method was coupled with dynamic thresholding technique called peak of threshold to detect more subtle faults. This approach aims to address the critical challenge of data annotation in real-world applications. The method was tested using data from a university campus building. The algorithm successfully identified various faults, primarily in the monitoring system, but also uncovered issues in the air handling unit scheduling. 
DOSSENA, VINCENZO
MAZZARELLA, LIVIO
APRILE, MARCELLO
30-ott-2024
Data driven Fault Detection and Diagnostics for HVAC systems in buildings
Gli impianti negli edifici, in particolare i sistemi di riscaldamento, ventilazione e condizionamento dell'aria (HVAC), sono soggetti a vari problemi operativi che possono influire significativamente sulle loro prestazioni. Questi problemi, che vanno dai malfunzionamenti dei sensori, ai guasti delle apparecchiature, e al funzionamento non ottimale del sistema, spesso provocano una serie di conseguenze negative, come un consumo energetico eccessivo, spese di manutenzione elevate e una qualità compromessa dell'ambiente interno. La letteratura scientifica indica che tali guasti e controlli inefficienti dei sistemi possono portare a uno spreco energetico compreso tra il 15% e il 30% negli edifici. Negli ultimi anni, l'implementazione diffusa dei sistemi di automazione degli edifici, insieme ai progressi nell'analisi dei dati, nella tecnologia dei sensori e negli algoritmi di machine learning, ha suscitato un crescente interesse per la rilevazione e la diagnostica dei guasti (FDD – Fault Detection and Diagnosis ) basata sui dati per i sistemi HVAC. Numerosi studi hanno esplorato modelli di machine learning tradizionali e deep learning addestrati in modalità supervisionata, semi-supervisionata e non supervisionata. Tuttavia, permangono diverse lacune nella letteratura. Queste includono una carenza di studi nei contesti di applicazioni residenziali, una comprensione poco chiara dell'importanza delle dipendenze temporali, una ricerca insufficiente sulla gestione delle sfide di dati non etichettati per la rilevazione di guasti sconosciuti e pochi studi che utilizzano dati di edifici reali. Questa tesi mira a raggiungere diversi obiettivi. In primo luogo, indaga l'efficacia di metodi supervisionati selezionati in contesti residenziali, concentrandosi su un set minimo di caratteristiche per ottimizzare la praticità e l'efficienza. In secondo luogo, la ricerca valuta il potenziale degli algoritmi di classificazione delle serie temporali “multivariate” per la FDD, esplorando la loro capacità di catturare schemi temporali nel comportamento dei sistemi HVAC. Infine, lo studio sviluppa e testa un nuovo algoritmo di apprendimento auto-supervisionato. Questo approccio sfrutta i dati non etichettati per accelerare il processo di annotazione dei dati, un passo per superare la scarsità di dataset etichettati in scenari reali. Le prestazioni di questo metodo auto-supervisionato sono state rigorosamente valutate utilizzando dati di un edificio reale. Per affrontare il primo obiettivo, è stato condotto uno studio su un edificio residenziale utilizzando dati simulati. L'Extreme Gradient Boosting ha mostrato un'accuratezza dell'85% utilizzando un numero minimo di caratteristiche, tenendo conto del rischio di overfitting. Inoltre, sono stati utilizzati metodi di interpretabilità per garantire la trasparenza del modello sia nelle decisioni globali che locali del modello. Per il secondo obiettivo, è stato condotto uno studio di benchmarking su più algoritmi di classificazione delle serie temporali multivariate utilizzati su dataset open-source. Gli algoritmi basati sul deep learning hanno mostrato le migliori prestazioni con un punteggio F1 di 0,92, 0,85 e 0,61 rispettivamente sui tre dataset utilizzati. Per il terzo obiettivo, è stato sviluppato un innovativo metodo auto-supervisionato basato sui cosiddetti “transformer” per sfruttare i dati non etichettati per la rilevazione dei guasti. Il metodo è stato abbinato a una tecnica di soglia dinamica chiamata “picco di soglia” per rilevare guasti più sottili. Questo approccio mira a risolvere la sfida critica dell'annotazione dei dati nelle applicazioni reali. Il metodo è stato testato utilizzando dati provenienti da un edificio del campus universitario. L'algoritmo ha identificato con successo vari guasti, principalmente nel sistema di monitoraggio, ma ha anche rilevato problemi nella programmazione dell'unità di trattamento dell'aria.
File allegati
File Dimensione Formato  
Data driven Fault Detection and Diagnostics.pdf

accessibile in internet per tutti

Descrizione: Manuscript
Dimensione 5.31 MB
Formato Adobe PDF
5.31 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/229353