This thesis investigates whether Hawkes processes can provide interpretable, simulation-ready descriptions of limit order book order flow. High-frequency LOBSTER data are used for Apple and Google over September 2025, a standard liquidity regime, and for GameStop during the January 2021 short-squeeze episode, an extreme event driven by coordinated retail participation. Univariate specifications are estimated separately for limit orders, market orders, and cancellations, progressing from a homogeneous Poisson baseline through exponential-kernel Hawkes models to approximate power-law specifications. Among these three model classes, power-law kernels provide the best description: they reproduce burstiness statistics closely for limit orders and cancellations, though their advantage is less uniform for market orders, where the framework is persistently challenged by extreme intermittency. Multivariate extensions are then examined. A non-parametric cumulant estimator (NPHC) identifies strong self-excitation across all three event types and tight bidirectional coupling between limit orders and cancellations. Parametric multivariate calibration of exponential and power-law models reveals identification difficulties, including spurious cross-excitation in controlled synthetic experiments, confirming that the univariate power-law specification remains the most reliable simulation tool for individual event streams. Building on this, the framework is extended to incorporate exogenous attention shocks via a multiplicative state-dependent Hawkes specification, in which the standard Hawkes intensity is modulated by a factor exp(θXt), where Xt is a Reddit activity proxy. For GameStop, the model yields systematic likelihood improvements and a substantial reduction in inferred endogeneity, revealing that standard Hawkes benchmarks overestimate self-excitation by conflating attention-driven intensity surges with endogenous feedback.Applied to Apple over the same period, where Reddit activity is present but operates at a different scale, the estimated coefficients are substantially smaller, consistent with the Reddit signal carrying incremental explanatory power primarily during extreme coordination episodes. A synthetic experiment further rules out spurious state dependence.

La presente tesi indaga se i processi di Hawkes possano fornire descrizioni interpretabili e riproducibili tramite simulazione delle dinamiche del flusso di ordini nel limit order book (LOB). L’analisi si basa su dati ad alta frequenza per Apple e Google nel settembre 2025 e per GameStop durante lo short squeeze del gennaio 2021. In primo luogo, vengono stimate specificazioni univariate per limit orders, market orders e cancellazioni, procedendo da una baseline di Poisson omogenea attraverso modelli di Hawkes con kernel esponenziale fino a specificazioni con kernel power law. Tra le tre classi, i kernel power law offrono la migliore capacità descrittiva, poiché riproducono accuratamente l’aggregazione temporale di limit orders e cancellazioni, mentre il vantaggio risulta meno uniforme per i market orders, caratterizzati da estrema intermittenza. In secondo luogo, vengono esaminate estensioni multivariate. L’algoritmo non parametrico NPHC identifica una forte auto-eccitazione in tutte e tre le tipologie di eventi e un marcato accoppiamento bidirezionale tra limit orders e cancellazioni. La calibrazione parametrica di modelli multivariati esponenziali e power law evidenzia tuttavia difficoltà nel ricostruire tali interazioni, confermando che il modello univariato power law rimane lo strumento più affidabile per riprodurre le dinamiche del flusso di ordini. Infine, il quadro di analisi viene esteso in modo da catturare il ruolo esogeno dell’attenzione degli investitori. Viene introdotta una variante di Hawkes dipendente dallo stato, in cui l’intensità è moltiplicata per exp(θXt), dove Xt è un proxy dell’attività su Reddit. Nel caso di GameStop, i coefficienti di stato stimati producono miglioramenti sistematici della likelihood e una marcata riduzione dell’endogeneità rispetto al modello di Hawkes standard, indicando che l’omissione di covariate di attenzione esterna induce una sovrastima dell’auto-eccitazione. Lo stesso modello applicato ad Apple nel medesimo periodo restituisce coefficienti sostanzialmente inferiori, coerentemente con l’ipotesi che il canale Reddit apporti potere esplicativo incrementale soprattutto durante episodi di coordinazione estrema. Un esperimento su dati sintetici esclude inoltre che la dipendenza dallo stato osservata sia un artefatto della procedura di stima.

Hawkes processes for limit order book dynamics

BENCINI, MARGHERITA
2024/2025

Abstract

This thesis investigates whether Hawkes processes can provide interpretable, simulation-ready descriptions of limit order book order flow. High-frequency LOBSTER data are used for Apple and Google over September 2025, a standard liquidity regime, and for GameStop during the January 2021 short-squeeze episode, an extreme event driven by coordinated retail participation. Univariate specifications are estimated separately for limit orders, market orders, and cancellations, progressing from a homogeneous Poisson baseline through exponential-kernel Hawkes models to approximate power-law specifications. Among these three model classes, power-law kernels provide the best description: they reproduce burstiness statistics closely for limit orders and cancellations, though their advantage is less uniform for market orders, where the framework is persistently challenged by extreme intermittency. Multivariate extensions are then examined. A non-parametric cumulant estimator (NPHC) identifies strong self-excitation across all three event types and tight bidirectional coupling between limit orders and cancellations. Parametric multivariate calibration of exponential and power-law models reveals identification difficulties, including spurious cross-excitation in controlled synthetic experiments, confirming that the univariate power-law specification remains the most reliable simulation tool for individual event streams. Building on this, the framework is extended to incorporate exogenous attention shocks via a multiplicative state-dependent Hawkes specification, in which the standard Hawkes intensity is modulated by a factor exp(θXt), where Xt is a Reddit activity proxy. For GameStop, the model yields systematic likelihood improvements and a substantial reduction in inferred endogeneity, revealing that standard Hawkes benchmarks overestimate self-excitation by conflating attention-driven intensity surges with endogenous feedback.Applied to Apple over the same period, where Reddit activity is present but operates at a different scale, the estimated coefficients are substantially smaller, consistent with the Reddit signal carrying incremental explanatory power primarily during extreme coordination episodes. A synthetic experiment further rules out spurious state dependence.
ING - Scuola di Ingegneria Industriale e dell'Informazione
26-mar-2026
2024/2025
La presente tesi indaga se i processi di Hawkes possano fornire descrizioni interpretabili e riproducibili tramite simulazione delle dinamiche del flusso di ordini nel limit order book (LOB). L’analisi si basa su dati ad alta frequenza per Apple e Google nel settembre 2025 e per GameStop durante lo short squeeze del gennaio 2021. In primo luogo, vengono stimate specificazioni univariate per limit orders, market orders e cancellazioni, procedendo da una baseline di Poisson omogenea attraverso modelli di Hawkes con kernel esponenziale fino a specificazioni con kernel power law. Tra le tre classi, i kernel power law offrono la migliore capacità descrittiva, poiché riproducono accuratamente l’aggregazione temporale di limit orders e cancellazioni, mentre il vantaggio risulta meno uniforme per i market orders, caratterizzati da estrema intermittenza. In secondo luogo, vengono esaminate estensioni multivariate. L’algoritmo non parametrico NPHC identifica una forte auto-eccitazione in tutte e tre le tipologie di eventi e un marcato accoppiamento bidirezionale tra limit orders e cancellazioni. La calibrazione parametrica di modelli multivariati esponenziali e power law evidenzia tuttavia difficoltà nel ricostruire tali interazioni, confermando che il modello univariato power law rimane lo strumento più affidabile per riprodurre le dinamiche del flusso di ordini. Infine, il quadro di analisi viene esteso in modo da catturare il ruolo esogeno dell’attenzione degli investitori. Viene introdotta una variante di Hawkes dipendente dallo stato, in cui l’intensità è moltiplicata per exp(θXt), dove Xt è un proxy dell’attività su Reddit. Nel caso di GameStop, i coefficienti di stato stimati producono miglioramenti sistematici della likelihood e una marcata riduzione dell’endogeneità rispetto al modello di Hawkes standard, indicando che l’omissione di covariate di attenzione esterna induce una sovrastima dell’auto-eccitazione. Lo stesso modello applicato ad Apple nel medesimo periodo restituisce coefficienti sostanzialmente inferiori, coerentemente con l’ipotesi che il canale Reddit apporti potere esplicativo incrementale soprattutto durante episodi di coordinazione estrema. Un esperimento su dati sintetici esclude inoltre che la dipendenza dallo stato osservata sia un artefatto della procedura di stima.
File allegati
File Dimensione Formato  
2026_03_Bencini_ExecutiveSummary.pdf

accessibile in internet per tutti a partire dal 28/02/2027

Dimensione 491.58 kB
Formato Adobe PDF
491.58 kB Adobe PDF   Visualizza/Apri
2026_03_Bencini_Tesi.pdf

accessibile in internet per tutti a partire dal 28/02/2027

Dimensione 3.07 MB
Formato Adobe PDF
3.07 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/253261