A regularized K-means algorithm for functional data clustering

We propose a novel regularized functional K-means algorithm for clustering high dimensional functional data, designed to estimate smooth cluster centroids directly within the clustering procedure. By incorporating a PDE-based penalization term into the centroid update step, the method integrates smoothing without requiring presmoothing of the full dataset, yielding computational efficiency and interpretable centroids. We further extend the approach to partially observed functional data through an iterative Majorization-Minimization scheme, offering a framework for clustering incomplete observations without complex preprocessing. Extensive simulations demonstrate that the method consistently outperforms non-regularized and non-presmoothed competitors, and remains competitive with presmoothed approaches across one-, two-, and three-dimensional settings, while requiring substantially fewer smoothing operations. In the missing-data scenarios, the proposed extension achieves accuracy on par with state-of-the-art reconstruction-based strategies and, in some cases, outperforms them, all while maintaining significantly lower computational costs. The algorithm for full observations is applied to resting-state functional MRI data mapped on a tetrahedral mesh of cortical and subcortical grey matter, revealing two distinct connectivity patterns associated with a seed region in the anterior cingulate gyrus. These results highlight the potential of the proposed approach as a flexible and interpretable tool for exploratory functional data analysis, while the extension to partially observed data provides a promising direction for future development.

In questo lavoro viene presentato un nuovo algoritmo di K-means funzionale regolarizzato per la clusterizzazione di dati funzionali ad alta dimensionalità, progettato per stimare direttamente centroidi di cluster lisci all'interno della procedura di clustering. Introducendo un termine di penalizzazione basato su equazioni differenziali parziali (PDE), il metodo incorpora la regolarizzazione nella stima dei centroidi, eliminando la necessità di effettuare presmoothing dell'intero dataset, ottenendo così maggiore efficienza computazionale e centroidi interpretabili e regolari. L'approccio viene inoltre esteso al caso di dati funzionali parzialmente osservati tramite uno schema iterativo di Majorization-Minimization, che offre un quadro metodologico per la clusterizzazione di osservazioni incomplete senza necessità di complesse fasi di preprocessing. Studi di simulazione mostrano che l'algoritmo supera sistematicamente le versioni non regolarizzate e non presmoothed, mantenendosi competitivo con i metodi basati su presmoothing nei casi uni-, bi- e tridimensionali, pur richiedendo un numero sensibilmente inferiore di operazioni di smoothing. In presenza di dati mancanti, l'estensione proposta raggiunge prestazioni comparabili alle strategie di ricostruzione più diffuse e, in alcuni scenari, le supera, garantendo al contempo una notevole efficienza computazionale. L'algoritmo per dati completamente osservati è stato applicato a dati fMRI a riposo proiettati su una mesh tetraedrica della materia grigia corticale e sottocorticale, rivelando due distinti pattern di connettività associati a una regione seed nel giro cingolato anteriore, confermando così l'efficacia del metodo nel trattare dati ad alta dimensionalità definiti su un dominio anatomico complesso. Nel complesso, il metodo rappresenta uno strumento innovativo e flessibile per il clustering funzionale in scenari di dati completamente osservati, con prospettive promettenti anche per l'analisi di dati parzialmente osservati.