Improved dynamic emulation modelling by time series clustering : the case study of Marina Reservoir, Singapore

Dynamic Emulation Modelling (DEMo) is emerging as a viable solution to combine computationally intensive simulation models and dynamic optimization algorithms. A dynamic emulator is a low order surrogate of the simulation model identified over a sample data set generated by the original simulation model itself. When applied to large 3D models, any DEMo exercise does require a preprocessing of the exogenous drivers and state variables in order to reduce, by spatial aggregation, the high number of candidate variables to appear in the final emulator. This work describes a hybrid clustering-variable selection approach to automatically discover compact and relevant representations of high-dimensional data sets. Time series clustering (Liao, 2005) is adopted to identify spatial structures by objectively organizing data into homogenous groups, where the within-group-object similarity is minimized. In particular, the proposed approach relies on a hierachical agglomerative clustering method (Magni et al., 2008), which starts by placing each time-series in its own cluster, and then merges clusters into larger clusters, until a compact, yet informative, representation of the original variables can be processed with the Recursive Variable Selection - Iterative Input Selection algorithm (Castelletti et al., 2011), in order to single out the most relevant clusters. The approach is demonstrated on a real-world case study concerning the reduction of DELFT3D, a spatially distributed hydrodynamic model used to simulate salt intrusion dynamics in a tropical lake (Marina Reservoir, Singapore).

Il Dynamic Emulation Modelling (DEMo) sta emergendo come possibile soluzione per un utilizzo combinato di algoritmi di ottimizzazione dinamica e di modelli di simulazione onerosi dal punto di vista computazionale. Un dinamic emulator è un modello semplificato e computazionalmente efficiente, di un modello di simulazione e può essere generato tramite simulazione a partire da un campione di dati prodotto dal modello originale. Se applicato a grandi modelli 3D, l'implementazione della procedura DEMo richiede un una preliminare trasformazione dei vettori degli ingressi esogeni e delle variabili di stato per ridurre, attraverso un'aggregazione spaziale, l'elevato numero di variabili candidate ad apparire nell'emulation model finale. Questo lavoro di tesi descrive un approccio combinato di techiche di clusterizzazione e di variable selection per scoprire in maniera automatica rappresentazioni compatte e rilevanti in data-set di grandi dimensioni. La clusterizzazione di serie temporali è qui adottata per identificare in modo oggettivo strutture spaziali nei dati e per organizzarli in gruppi omogenei, in cui il grado di similarità tra oggetti appartenenti ad uno stesso gruppo sia massimizzato. In particolare, l'approccio proposto si basa sull'utilizzo di un metodo di clusterizzazione gerarchico agglomerativo, che inizialmente pone ogni serie temporale in cluster differenti e successivamente li unisce in cluster di dimensioni sempre maggiori, fino a che una rappresentazione compatta, ma informativa, delle variabili originali può essere processata con l'algoritmo di Recursive Variable Selection - Iterative Input Selection, al fine di individuare i cluster più rilevanti. L'approccio è dimostrato su un caso studio reale riguardante la riduzione di Delft3D, un modello idrodinamico spazialmente distribuito utilizzato per simulare la dinamica dell'intrusione salina in un lago tropicale (Marina Reservoir, Singapore).