Performance assessment of load profiles clustering meythods based on silhouette analysis

The thesis is about a methodology for grouping MV substation load profiles based on clustering methods and cluster validation techniques. Real data from the DSO UNARETI was taken each 15 minutes for one year. The aim of this study is to analyze the performance of some clustering methods mainly based on cluster validation approaches. The clustering methodology includes the following steps: Loading raw load data from the database; load data filter and load data simplification; analysis of samples and subsequent analysis of the entire database; sensitivity analysis based on changing the input parameters; best data representation and best time-step using the samples; Silhouette value analysis and clustering validation using average silhouette value and Elbow charts; normalization of curves for the different clustering methods. Three types of representations were analyzed: the representation of absolute values obtained directly from the measurements and two representations in per unit values. Moreover, three different time steps were analyzed: 15 minutes time step, hourly and daily time step. Among them, the best combination that maximizes the silhouette values was chosen. The methodology was first tested on samples and then replicated to the entire database. Five clustering methods are considered: DBSCAN, Hierarchical, K-Nearest Neighbor, K-Mean. The silhouette and clustering validation values will be used to test the performance of each method. The use of graphs of silhouette values and Elbow charts were used. By analyzing the results of the load clustering, the following conclusions could be drawn: the best results were obtained when the analysis worked with absolute values representation and a time-step of 15 minutes; in most of the methods evaluated there were a tendency of having a big cluster which counts for almost all the input load profiles.

Questa tesi tratta una metodologia per raggruppare i profili di carico di utenti di MT sulla base di algoritmi di clustering e tecniche di cluster validation. Per l’analisi sono stati utilizzati dati reali acquisiti ogni 15 minuti del distributore di energia elettrica e gas naturale di Milano UNARETI. Lo scopo di questo studio è analizzare la bontà di alcuni metodi di clustering basandosi principalmente su approcci di cluster validation. La metodologia di clustering include le seguenti fasi: caricamento dei dati di carico dal database sorgente; filtraggio e semplificazione dei dati; analisi di alcuni campioni rappresentativi e successiva analisi dell'intero database; analisi di sensitività basata sulla modifica dei parametri di input dei metodi di clustering utilizzati; identificazione della migliore rappresentazione dei dati e del miglior time-step; analisi del valore della funzione Silhouette e valutazione dell’efficacia del clustering utilizzando il valore medio della funzione Silhouette e grafici di Elbow; normalizzazione delle curve per i diversi metodi di raggruppamento. Sono state analizzate tre tipi di rappresentazioni: una rappresentazione in termini di valore assoluto utilizzando direttamente i dati acquisiti dal campo e due rappresentazioni di valori in per unità. Inoltre, sono state analizzate tre diverse fasi temporali: 15 minuti, ora e giorno. Tra questi è stata scelta la migliore combinazione che massimizza i valori della funzione di Silhouette. La metodologia è stata prima testata su campioni e poi replicata sull'intero database. Saranno considerati cinque metodi di clustering: DBSCAN, Hierarchical, K-Nearest Neighbor, K-Mean. I valori della funzione di Silhouette verranno utilizzati per testare le prestazioni di ciascun metodo. Sono stati utilizzati i grafici dei valori della funzione di silhouette e i grafici di Elbow. Analizzando i risultati è stato possibile trarre le seguenti conclusioni: i migliori risultati sono stati ottenuti quando l'analisi ha lavorato con la rappresentazione di valori assoluti e un intervallo di tempo di 15 minuti; nella maggior parte dei metodi utilizzati la quasi totalità delle curve di carico sono associate ad un unico grande cluster.