Algorithmic Improvements for Multilevel Logistic Cluster-Weighted Model Estimation: Development and Evaluation of New Variants

The Multilevel Logistic Cluster-Weighted Model (ML-CWM) is designed for hierarchical data with latent structures. The Expectation-Maximization (EM) algorithm is ordinarily employed for parameter estimation, which necessitates the number of clusters to be set a priori. The hard assignment step assigns observations to clusters according to the highest posterior probabilities given by the E-step. This thesis aims to enhance the computational and model selection issues encountered when fitting a ML-CWM. Firstly, we propose to replace the hard assignment with stochastic or soft assignment. The stochastic algorithm assigns observations by randomly sampling clusters, reducing initial-position dependency. Soft assignment maintains original posterior probabilities without directly assign data to clusters, emphasizing each observation's contribution across all subpopulations. Secondly, we implement a cluster merging process based on t-criterion and alpha-criterion, aiming to automatically estimate the number of latent clusters within the data, starting from a higher number. After having identified the two closest clusters, from the parameter point of view, the t-criterion merges them if their distance is below a specified threshold, while the alpha-criterion does it if they are not statistically different throughout the use of (1-alpha)-confidence regions. Furthermore, we introduce the possibility to select the cluster-specific parameters to consider during the cluster merging process. Then, we conducted simulation studies to compare algorithm performances in discerning latent structures and accurately estimating model parameters. This analysis shows all algorithm versions perform well.Finally, we applied the best performing algorithms to heart failure patients hospitalized for COVID-19 in Lombardy region in order to compare our results with the best model identified by the standard fitting process.

Il Multilevel Logistic Cluster-Weighted Model (ML-CWM) è progettato per dati gerarchici con strutture latenti. L'algoritmo di Expectation-Maximization (EM) è solitamente impiegato per la stima dei parametri, richiedendo che il numero di cluster sia stabilito a priori. Lo step di assegnamento hard assegna le osservazioni ai cluster in base alle probabilità a posteriori più alte fornite dall'E-step. Questa tesi si propone di migliorare le problematiche computazionali e di selezione del modello riscontrate durante il fitting di un ML-CWM. In primo luogo, proponiamo di sostituire l'assegnamento hard con un'assegnazione stocastica o soft. L'algoritmo stocastico assegna le osservazioni campionando casualmente i cluster, riducendo la dipendenza dalla posizione iniziale. L'assegnazione soft mantiene le probabilità a posteriori originali senza assegnare direttamente i dati ai cluster, enfatizzando il contributo di ciascuna osservazione su tutte le sottopopolazioni. In secondo luogo, implementiamo un processo di fusione dei cluster basato sul criterio t e sul criterio alpha, con l'obiettivo di stimare automaticamente il numero di cluster latenti all'interno dei dati, partendo da un numero più alto. Dopo aver identificato i due cluster più vicini, dal punto di vista dei parametri, il criterio t li unisce se la loro distanza è inferiore a una soglia specificata, mentre il criterio alpha lo fa se non sono statisticamente differenti tramite l'uso di regioni di confidenza (1-alpha). Inoltre, introduciamo la possibilità di selezionare i parametri specifici del cluster da considerare durante il processo di fusione dei cluster. Successivamente, abbiamo condotto studi di simulazione per confrontare le prestazioni degli algoritmi nel discernere le strutture latenti e stimare accuratamente i parametri del modello. Questa analisi mostra che tutte le versioni degli algoritmi funzionano bene. Infine, abbiamo applicato i migliori algoritmi a pazienti con insufficienza cardiaca ospedalizzati per COVID-19 nella regione Lombardia, al fine di confrontare i nostri risultati con il miglior modello identificato dal processo di fitting standard.