The present work is focused on implementation and optimization of machine learning(ML)-based pipelines for building characterization (estimating the use type (A),performance class (B), and operation group (C)) employing both electrical and chilled water hourly consumption data. In this context, the building Data Genome Project II dataset that includes smart meter recordings from 1636 buildings located in multiple countries is utilized. The procedures are first performed for the whole dataset (after performing a cleaning step) only employing electrical data. In the next step, a subset of buildings, for which both electrical and chilled water data is available, is considered. Similar pipelines are then optimized for this subset first utilizing only electrical data (to create a baseline) and then employing all available data in order to investigate the impact of adding the features extracted from chiller water consumption's recordings. For each pipeline, after performing pre-processing and feature-extraction steps, the feature selection procedure is carried out in order to reduce the number of utilized features and to determine the most suitable feature set. Finally, the algorithm optimization is conducted in order to determine the most promising ML algorithm for each pipeline. par The obtained results demonstrate that, for the complete dataset, performing the above-mentioned procedures, in comparison with a benchmark random forest based model, increases the achieved accuracy (5.3% improvement for pipeline A, 0.8% for pipeline B, and 3.9% for pipeline C). On the other hand, it permits a notable reduction in the number of utilized features (by 94.7% , 88.3%, 89.4% for pipelines A,B, and C respectively), which in turn reduces the models' complexity and computational cost while facilitating the physical interpretation. It is also demonstrated that, adding the features extracted from the chilled water consumption data increase the achieved accuracy (with respect to the baseline for the second subset) by 12.4 % for Pipeline A, by 13.5 % for pipeline B, and by 7.2 % for pipeline C while reducing feature count by 97.2 %, 96.4 % and 96.5 % respectively.

Il presente lavoro è incentrato sull'implementazione e l'ottimizzazione di pipeline basate sull Machine Learning (ML) per la caratterizzazione degli edifici (stima del tipo di utilizzo (A), della classe di prestazione (B) e del gruppo di funzionamento (C)) utilizzando i dati di consumo orario di elettricità e acqua refrigerata. In questo contesto, viene utilizzato il dataset Building Data Genome Project II, che comprende le registrazioni dei contatori intelligenti di 1636 edifici situati in diversi Paesi. Le procedure vengono dapprima eseguite per l'intero set di dati (dopo aver eseguito la fase di data cleaning) utilizzando solo i dati elettrici. Nella fase successiva, viene preso in considerazione un sottoinsieme di edifici per i quali sono disponibili sia i dati elettrici che quelli relativi all'acqua refrigerata. Per questo sottoinsieme vengono ottimizzate pipeline simili, prima utilizzando solo i dati elettrici (per creare una baseline) e poi impiegando tutti i dati disponibili, al fine di studiare l'impatto dell'aggiunta dei parametri estratti dalle registrazioni dei consumi di acqua refrigerata. Per ogni pipeline, dopo aver eseguito le fasi di pre-elaborazione e di estrazione dei parameteri, viene eseguita la procedura di selezione dei parameteri per ridurre il numero numero dei parametri utilizzati e determinare il set dei parametri più adatto. Infine, si procede all'ottimizzazione dell'algoritmo per determinare l'algoritmo di ML più promettente per ciascuna pipeline. I risultati ottenuti dimostrano che, per l'intero set di dati, l'esecuzione delle procedure sopra descritte, rispetto a un modello di riferimento basato su una foresta casuale, aumenta l'accuratezza ottenuta (miglioramento del 5,3% per la pipeline A, dello 0,8% per la pipeline B e del 3,9% per la pipeline C). D'altro canto, consente una notevole riduzione del numero numero dei parametri utilizzati (del 94,7%, 88,3% e 89,4% rispettivamente per le pipeline A, B e C), che a sua volta riduce la complessità e il costo computazionale dei modelli, facilitandone l'interpretazione fisica. È stato inoltre dimostrato che l'aggiunta dei parametri estratti dai dati di consumo di acqua refrigerata aumenta l'accuratezza ottenuta (rispetto alla baseline per il secondo sottoinsieme) del 12,4 % per la conduttura A, del 13,5 % per la conduttura B e del 7,2 % per la conduttura C, riducendo il numero dei parametri rispettivamente del 97,2 %, 96,4 % e 96,5 %.par I risultati ottenuti dimostrano che, per il set di dati completo, l'esecuzione delle procedure sopra menzionate, rispetto a un modello random forest based di riferimento, aumenta l'accuratezza raggiunta (miglioramento del 5,3% per la pipeline A, 0,8% per la pipelineB e 3,9 % per la condotta C). Consente invece una notevole riduzione del numero di funzionalità utilizzate (rispettivamente del 94,7%, 88,3%, 89,4% per le pipeline A, B e C), che a sua volta riduce la complessità computazionale dei modelli costo facilitando l'interpretazione fisica. È inoltre dimostrato che, sommando le caratteristiche estratte dai dati di consumo dell'acqua refrigerata, l'accuratezza raggiunta (rispetto alla linea di base per il secondo sottoinsieme) aumenta del 12,4 % per la condotta A, del 13,5 % per la condotta B e di 7,2 % per il gasdotto C.

Machine learning based estimation of buildings' characteristics employing electrical and chilled water consumption data : pipeline optmization

Raymand, Farhang
2021/2022

Abstract

The present work is focused on implementation and optimization of machine learning(ML)-based pipelines for building characterization (estimating the use type (A),performance class (B), and operation group (C)) employing both electrical and chilled water hourly consumption data. In this context, the building Data Genome Project II dataset that includes smart meter recordings from 1636 buildings located in multiple countries is utilized. The procedures are first performed for the whole dataset (after performing a cleaning step) only employing electrical data. In the next step, a subset of buildings, for which both electrical and chilled water data is available, is considered. Similar pipelines are then optimized for this subset first utilizing only electrical data (to create a baseline) and then employing all available data in order to investigate the impact of adding the features extracted from chiller water consumption's recordings. For each pipeline, after performing pre-processing and feature-extraction steps, the feature selection procedure is carried out in order to reduce the number of utilized features and to determine the most suitable feature set. Finally, the algorithm optimization is conducted in order to determine the most promising ML algorithm for each pipeline. par The obtained results demonstrate that, for the complete dataset, performing the above-mentioned procedures, in comparison with a benchmark random forest based model, increases the achieved accuracy (5.3% improvement for pipeline A, 0.8% for pipeline B, and 3.9% for pipeline C). On the other hand, it permits a notable reduction in the number of utilized features (by 94.7% , 88.3%, 89.4% for pipelines A,B, and C respectively), which in turn reduces the models' complexity and computational cost while facilitating the physical interpretation. It is also demonstrated that, adding the features extracted from the chilled water consumption data increase the achieved accuracy (with respect to the baseline for the second subset) by 12.4 % for Pipeline A, by 13.5 % for pipeline B, and by 7.2 % for pipeline C while reducing feature count by 97.2 %, 96.4 % and 96.5 % respectively.
HAGHIGHAT MAMAGHANI, ALIREZA
RINALDI, FABIO
ING - Scuola di Ingegneria Industriale e dell'Informazione
4-ott-2022
2021/2022
Il presente lavoro è incentrato sull'implementazione e l'ottimizzazione di pipeline basate sull Machine Learning (ML) per la caratterizzazione degli edifici (stima del tipo di utilizzo (A), della classe di prestazione (B) e del gruppo di funzionamento (C)) utilizzando i dati di consumo orario di elettricità e acqua refrigerata. In questo contesto, viene utilizzato il dataset Building Data Genome Project II, che comprende le registrazioni dei contatori intelligenti di 1636 edifici situati in diversi Paesi. Le procedure vengono dapprima eseguite per l'intero set di dati (dopo aver eseguito la fase di data cleaning) utilizzando solo i dati elettrici. Nella fase successiva, viene preso in considerazione un sottoinsieme di edifici per i quali sono disponibili sia i dati elettrici che quelli relativi all'acqua refrigerata. Per questo sottoinsieme vengono ottimizzate pipeline simili, prima utilizzando solo i dati elettrici (per creare una baseline) e poi impiegando tutti i dati disponibili, al fine di studiare l'impatto dell'aggiunta dei parametri estratti dalle registrazioni dei consumi di acqua refrigerata. Per ogni pipeline, dopo aver eseguito le fasi di pre-elaborazione e di estrazione dei parameteri, viene eseguita la procedura di selezione dei parameteri per ridurre il numero numero dei parametri utilizzati e determinare il set dei parametri più adatto. Infine, si procede all'ottimizzazione dell'algoritmo per determinare l'algoritmo di ML più promettente per ciascuna pipeline. I risultati ottenuti dimostrano che, per l'intero set di dati, l'esecuzione delle procedure sopra descritte, rispetto a un modello di riferimento basato su una foresta casuale, aumenta l'accuratezza ottenuta (miglioramento del 5,3% per la pipeline A, dello 0,8% per la pipeline B e del 3,9% per la pipeline C). D'altro canto, consente una notevole riduzione del numero numero dei parametri utilizzati (del 94,7%, 88,3% e 89,4% rispettivamente per le pipeline A, B e C), che a sua volta riduce la complessità e il costo computazionale dei modelli, facilitandone l'interpretazione fisica. È stato inoltre dimostrato che l'aggiunta dei parametri estratti dai dati di consumo di acqua refrigerata aumenta l'accuratezza ottenuta (rispetto alla baseline per il secondo sottoinsieme) del 12,4 % per la conduttura A, del 13,5 % per la conduttura B e del 7,2 % per la conduttura C, riducendo il numero dei parametri rispettivamente del 97,2 %, 96,4 % e 96,5 %.par I risultati ottenuti dimostrano che, per il set di dati completo, l'esecuzione delle procedure sopra menzionate, rispetto a un modello random forest based di riferimento, aumenta l'accuratezza raggiunta (miglioramento del 5,3% per la pipeline A, 0,8% per la pipelineB e 3,9 % per la condotta C). Consente invece una notevole riduzione del numero di funzionalità utilizzate (rispettivamente del 94,7%, 88,3%, 89,4% per le pipeline A, B e C), che a sua volta riduce la complessità computazionale dei modelli costo facilitando l'interpretazione fisica. È inoltre dimostrato che, sommando le caratteristiche estratte dai dati di consumo dell'acqua refrigerata, l'accuratezza raggiunta (rispetto alla linea di base per il secondo sottoinsieme) aumenta del 12,4 % per la condotta A, del 13,5 % per la condotta B e di 7,2 % per il gasdotto C.
File allegati
File Dimensione Formato  
Raymand - Executive Summary.pdf

non accessibile

Descrizione: Executive Summary of Masters Thesis - Farhang Raymand
Dimensione 859.93 kB
Formato Adobe PDF
859.93 kB Adobe PDF   Visualizza/Apri
Raymand - Masters Thesis.pdf

non accessibile

Descrizione: Masters Thesis Main Text - Farhang Raymand
Dimensione 3.78 MB
Formato Adobe PDF
3.78 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/192326