The typical load days : a clustering problem

This thesis combines different subjects. Data science, mathematical analysis and electrical engineering collaborate here to determine the representative or typical electrical load days along one year by applying a quite recent technique, under a strong development process: time series clustering. Indeed, though three different clustering algorithms, a dataset composed by 365 daily load curves is clustered into 36 or less clusters, and for each cluster a representative day is selected (typical load day). In the introduction, the importance of clustering in everyday life will be discussed and deepened though real-life examples. Instead, in the first chapter, a solid theoretical basis on time series, similarity measures and clustering will be provided. Moreover, the second chapter will analyze in detail the three employed clustering algorithms, while their practical implementation will be examined in the third chapter to determine the typical load days from a real-life dataset. The considered softwares to perform the clustering process are Matlab, typically used in engineering field, and R-studio, common instead in data-analysis. The obtained results will show that is possible to use only the typical days, instead than the complete dataset, as input to many specific algorithms to greatly reduce the computational time, achieving anyway coherent results. Finally, the conclusion will highlight again the importance of clustering in addressing modern problems and will provide a possible further development of the standard algorithms to solve some issues that are nowadays under research.

Questa tesi combina diversi ambiti scientifici. In particolare, data-science, analisi matematica e ingegneria elettrica vengono impiegate per determinare i giorni di carico elettrico rappresentativi o tipici durante un anno, applicando una tecnica abbastanza giovane ma che sta subendo un forte processo di sviluppo: il clustering di serie temporali. Infatti, attraverso tre diversi algoritmi di clustering, un dataset composto da 365 curve di carico giornaliere è stato raggruppato in 36 (o meno) cluster, e per ogni cluster viene selezionato un giorno rappresentativo (giorno di carico tipico). Nell'introduzione, l'importanza del clustering nella vita di tutti i giorni sarà discussa e approfondita attraverso esempi di vita reale (per esempio analizzando il caso di Google). Nel primo capitolo, invece, verranno fornite solide basi teoriche su serie temporali, misure di similarità e clustering. Inoltre, il secondo capitolo analizzerà in dettaglio i tre algoritmi di clustering impiegati, mentre la loro implementazione pratica sarà esaminata nel terzo capitolo allo scopo di determinare i giorni di carico tipici da un dataset reale. I software utilizzati per eseguire il processo di clustering sono Matlab, tipicamente impiegato in campo ingegneristico, e R-studio, comune invece nell'analisi dei dati. I risultati ottenuti mostreranno che è possibile utilizzare solo i giorni tipici, invece del dataset completo, come input di molti algoritmi specifici per ridurre notevolmente i tempi di calcolo ma ottenendo comunque risultati coerenti. Infine, la conclusione evidenzierà ancora l'importanza del clustering nell'affrontare i problemi moderni e fornirà un possibile ulteriore sviluppo degli algoritmi standard per risolvere alcuni problemi tutt’oggi oggetto di ricerca.