A comparative analysis of regime-switching models in equity market timing

Score-driven regime-switching models extend traditional Hidden Markov Models (HMM) by allowing transition probabilities to evolve over time based on the scaled score of the predictive likelihood (Bazzi et al., 2017; Creal et al., 2013). This observation-driven approach, termed HMM-GAS (Generalized Autoregressive Score), theoretically offers greater flexibility to capture time-varying regime dynamics compared to HMMs with fixed transitions or Hidden Semi-Markov Models (HSMM) with explicit duration modeling. This thesis examines these three model architectures across both statistical and economic dimensions within a specific implementation framework. While the general principle that statistical forecast accuracy does not necessarily translate into economic value is well-established in the literature, no prior study has systematically compared HMM, HSMM, and HMM-GAS across both statistical (regime identification accuracy) and economic (risk-adjusted trading returns) evaluation criteria within a unified framework to observe how model-specific architectural features perform across varying market regimes. We systematically compare three regime-switching specifications---HMM, HSMM, and HMM-GAS---across three evaluation dimensions: distributional replication via controlled simulation (Chapter 6), regime identification accuracy under cross-model misspecification (Chapter 7), and risk-adjusted trading performance (Chapter 8). Using daily S\&P 500 returns spanning 2003--2020, we conduct 1,200 Monte Carlo simulations and out-of-sample backtesting including the COVID-19 crisis, with all model parameters estimated via maximum likelihood on rolling three-year windows. The empirical findings reveal patterns suggesting asymmetric regime-specific performance across model architectures. HMM-GAS achieves marginally higher cross-model regime identification accuracy than HMM under misspecification (88.0\% vs.\ 83.3\% off-diagonal accuracy across 36 scenarios), consistent with its theoretical flexibility. However, this 4.7-percentage-point statistical advantage does not translate uniformly to trading performance. During stable bull markets (2003--2007), HMM-based strategies substantially outperform HMM-GAS (Sharpe ratio: 0.10 vs.\ $-0.23$), with the score-driven model generating losses during a period when buy-and-hold gained 64\%. This ranking reverses during financial crises, where HMM-GAS's time-varying transitions appear to provide superior crash detection (2008--2012 Sharpe: 0.83 vs.\ 0.49). HSMM-based strategies exhibit the most extreme regime-dependent asymmetry: highest stable-period performance (2013--2017 Sharpe: 1.25) coupled with severe drawdown risk during rapid transitions (2008--2012 Sharpe: $-0.04$; COVID-19 drawdown: $-26.44\%$). These observed patterns suggest that model architectural features---fixed vs.\ time-varying transitions, explicit duration modeling---may confer advantages that vary with market conditions, though this could also reflect interactions with strategy design choices (fixed thresholds, binary positions, asymmetric signal construction). We observe two potential mechanisms that may contribute to this statistical-economic divergence. First, statistical accuracy metrics assign equal weight to all classification errors, while trading performance compounds errors asymmetrically---correctly identifying the onset of major crashes dominates classification accuracy during extended calm periods. Second, models appear to exhibit regime-specific strengths arising from their structural assumptions: HMM's fixed transitions may provide inertia that captures prolonged bull markets, HMM-GAS's observation-driven dynamics may detect volatility regime shifts more rapidly, and HSMM's explicit duration modeling may optimize for regime persistence at the cost of transition flexibility. However, alternative threshold choices or position sizing rules might alter these patterns. These observations motivate a hybrid strategy that combines HMM's long signals with HMM-GAS's short signals, attempting to exploit each model's apparent regime-specific strength. This asymmetric construction achieves the highest risk-adjusted returns both in-sample (Sharpe 0.66) and out-of-sample (0.80), with out-of-sample performance exceeding in-sample results---suggestive evidence against overfitting, though validated on only one crisis episode. During the COVID-19 crash, the hybrid strategy avoids the crash compared to 33.92\% for buy-and-hold, though generalization beyond this single out-of-sample crisis episode requires validation across additional market cycles and alternative strategy designs. This thesis makes three contributions to the regime-switching literature. First, it provides a systematic comparative evaluation of HMM, HSMM, and HMM-GAS across both statistical (regime identification accuracy under 36 cross-model misspecification scenarios) and economic (risk-adjusted trading returns across multiple market cycles) dimensions within a unified empirical framework, addressing a gap in the literature where these architectures have been evaluated separately or on single criteria. Second, it observes asymmetric regime-specific performance patterns: HMM-based strategies perform well in stable bull markets (2003--2007, 2013--2017), HMM-GAS-based strategies perform better in crisis detection (2008--2012), and HSMM-based strategies exhibit extreme asymmetry (highest stable-period returns, severe rapid-transition drawdown risk)---observed patterns that suggest more flexible models may not uniformly dominate simpler specifications, though these patterns may reflect interactions between model properties and strategy design choices. Third, it shows that one hybrid strategy design exploiting these observed asymmetries (combining HMM's long signals with HMM-GAS's short signals) achieves strong and consistent performance across heterogeneous market conditions compared to single-model approaches, providing one ensemble methodology example that may hedge against model specification uncertainty, though the optimal hybrid design likely depends on implementation details. The findings are subject to methodological constraints including limited out-of-sample crisis episodes (single COVID-19 event), simplified transaction cost assumptions (zero baseline with robustness checks up to 10 basis points), binary position sizing (long/flat/short without fractional allocation), focus on U.S. large-cap equity returns (S\&P 500 index), and most critically, limited exploration of the strategy design space (fixed thresholds, specific signal construction). The results suggest that practitioners may benefit from evaluating regime-switching models using performance metrics aligned with their intended application rather than relying solely on in-sample statistical criteria, and considering ensemble approaches that could hedge against model misspecification risk across heterogeneous market conditions, while recognizing that optimal implementation choices likely require extensive experimentation across strategy design parameters.

I modelli a cambiamento di regime basati sullo score estendono i tradizionali Hidden Markov Models (HMM) permettendo alle probabilità di transizione di evolversi nel tempo sulla base dello score scalato della verosimiglianza predittiva (Bazzi et al., 2017; Creal et al., 2013). Questo approccio observation-driven, denominato HMM-GAS (Generalized Autoregressive Score), offre teoricamente una maggiore flessibilità per catturare dinamiche di regime variabili nel tempo rispetto agli HMM con transizioni fisse o agli Hidden Semi-Markov Models (HSMM) con modellazione esplicita della durata. Questa tesi esamina queste tre architetture di modelli attraverso dimensioni sia statistiche che economiche all'interno di un framework di implementazione specifico. Sebbene il principio generale che l'accuratezza statistica delle previsioni non si traduce necessariamente in valore economico sia ben consolidato in letteratura, nessuno studio precedente ha confrontato sistematicamente HMM, HSMM e HMM-GAS sia su criteri statistici (accuratezza di identificazione dei regimi) che economici (rendimenti di trading aggiustati per il rischio) all'interno di un framework unificato per osservare come le caratteristiche architetturali specifiche dei modelli si comportino in regimi di mercato variabili. Confrontiamo sistematicamente tre specificazioni a cambiamento di regime---HMM, HSMM e HMM-GAS---attraverso tre dimensioni di valutazione: replicazione distributiva tramite simulazione controllata (Capitolo 6), accuratezza di identificazione dei regimi sotto misspecificazione cross-model (Capitolo 7), e performance di trading aggiustata per il rischio (Capitolo 8). Utilizzando rendimenti giornalieri dell'S\&P 500 dal 2003 al 2020, conduciamo 1.200 simulazioni Monte Carlo e backtesting out-of-sample includendo la crisi COVID-19, con tutti i parametri dei modelli stimati tramite massima verosimiglianza su finestre mobili di tre anni. I risultati empirici rivelano pattern suggerendo performance asimmetriche regime-specifiche tra le architetture dei modelli. HMM-GAS raggiunge un'accuratezza di identificazione dei regimi cross-model marginalmente superiore rispetto a HMM sotto misspecificazione (88,0\% vs.\ 83,3\% di accuratezza off-diagonal su 36 scenari), coerentemente con la sua flessibilità teorica. Tuttavia, questo vantaggio statistico di 4,7 punti percentuali non si traduce uniformemente alla performance di trading. Durante i mercati toro stabili (2003--2007), le strategie basate su HMM superano sostanzialmente HMM-GAS (rapporto di Sharpe: 0,10 vs.\ $-0,23$), con il modello score-driven che genera perdite durante un periodo in cui il buy-and-hold ha guadagnato il 64\%. Questa classificazione si inverte durante le crisi finanziarie, dove le transizioni variabili nel tempo di HMM-GAS sembrano fornire una rilevazione superiore dei crash (Sharpe 2008--2012: 0,83 vs.\ 0,49). Le strategie basate su HSMM esibiscono l'asimmetria regime-dipendente più estrema: massima performance nei periodi stabili (Sharpe 2013--2017: 1,25) accoppiata a severo rischio di drawdown durante transizioni rapide (Sharpe 2008--2012: $-0,04$; drawdown COVID-19: $-26,44\%$). Questi pattern osservati suggeriscono che le caratteristiche architetturali dei modelli---transizioni fisse vs.\ variabili nel tempo, modellazione esplicita della durata---possono conferire vantaggi che variano con le condizioni di mercato, sebbene ciò potrebbe anche riflettere interazioni con le scelte di progettazione della strategia (soglie fisse, posizioni binarie, costruzione asimmetrica dei segnali). Osserviamo due potenziali meccanismi che possono contribuire a questa divergenza statistica-economica. Primo, le metriche di accuratezza statistica assegnano uguale peso a tutti gli errori di classificazione, mentre la performance di trading compone gli errori asimmetricamente---identificare correttamente l'inizio di crash importanti domina l'accuratezza di classificazione durante periodi calmi estesi. Secondo, i modelli sembrano esibire punti di forza regime-specifici derivanti dalle loro assunzioni strutturali: le transizioni fisse di HMM forniscono inerzia che cattura mercati toro prolungati, le dinamiche observation-driven di HMM-GAS rilevano rapidamente i cambiamenti di regime di volatilità, e la modellazione esplicita della durata di HSMM ottimizza per la persistenza del regime a costo della flessibilità di transizione. Tuttavia, scelte alternative di soglie o regole di dimensionamento delle posizioni potrebbero alterare questi pattern. Queste osservazioni motivano una strategia ibrida che combina i segnali long di HMM con i segnali short di HMM-GAS, tentando di sfruttare il punto di forza regime-specifico apparente di ciascun modello. Questa costruzione asimmetrica raggiunge i rendimenti aggiustati per il rischio più elevati sia in-sample (Sharpe 0,66) che out-of-sample (0,80), con la performance out-of-sample che supera i risultati in-sample---evidenza suggestiva contro l'overfitting, sebbene validata su un solo episodio di crisi. Durante il crash COVID-19, la strategia ibrida evita il crash rispetto al 33,92\% del buy-and-hold, sebbene la generalizzazione oltre questo singolo episodio di crisi out-of-sample richieda validazione attraverso cicli di mercato addizionali e progettazioni alternative della strategia. Questa tesi fornisce tre contributi alla letteratura sul cambiamento di regime. Primo, fornisce una valutazione comparativa sistematica di HMM, HSMM e HMM-GAS attraverso dimensioni sia statistiche (accuratezza di identificazione dei regimi sotto 36 scenari di misspecificazione cross-model) che economiche (rendimenti di trading aggiustati per il rischio attraverso multipli cicli di mercato) all'interno di un framework empirico unificato, colmando una lacuna nella letteratura dove queste architetture sono state valutate separatamente o su singoli criteri. Secondo, osserva pattern di performance asimmetrici regime-specifici: le strategie basate su HMM performano bene nei mercati toro stabili (2003--2007, 2013--2017), le strategie basate su HMM-GAS performano meglio nella rilevazione delle crisi (2008--2012), e le strategie basate su HSMM esibiscono asimmetria estrema (rendimenti più alti nei periodi stabili, severo rischio di drawdown nelle transizioni rapide)---pattern osservati che suggeriscono che modelli più flessibili potrebbero non dominare uniformemente specificazioni più semplici, sebbene questi pattern possano riflettere interazioni tra proprietà del modello e scelte di progettazione della strategia. Terzo, mostra che una progettazione di strategia ibrida che sfrutta queste asimmetrie osservate (combinando i segnali long di HMM con i segnali short di HMM-GAS) raggiunge performance forte e consistente attraverso condizioni di mercato eterogenee rispetto agli approcci a modello singolo, fornendo un esempio di metodologia ensemble che può coprire contro l'incertezza di specificazione del modello, sebbene la progettazione ibrida ottimale dipenda probabilmente dai dettagli di implementazione. I risultati sono soggetti a vincoli metodologici inclusi episodi di crisi out-of-sample limitati (singolo evento COVID-19), assunzioni semplificate sui costi di transazione (baseline zero con controlli di robustezza fino a 10 punti base), dimensionamento binario delle posizioni (long/flat/short senza allocazione frazionaria), focus sui rendimenti azionari large-cap statunitensi (indice S\&P 500), e soprattutto, esplorazione limitata dello spazio di progettazione della strategia (soglie fisse, costruzione specifica dei segnali). I risultati suggeriscono che i practitioner potrebbero beneficiare dalla valutazione dei modelli a cambiamento di regime utilizzando metriche di performance allineate con la loro applicazione intesa piuttosto che affidarsi esclusivamente a criteri statistici in-sample, e dalla considerazione di approcci ensemble che potrebbero coprire contro il rischio di misspecificazione del modello attraverso condizioni di mercato eterogenee, riconoscendo che le scelte di implementazione ottimali richiedono probabilmente sperimentazione estensiva attraverso i parametri di progettazione della strategia.