STitch: multimodal contrastive learning for spatial Transcriptomics

Spot-based spatial transcriptomics (ST) measures gene expression while preserving tissue geometry, enabling joint analysis of molecular profiles and histological morphology. However, each spot aggregates multiple cells, so the paired transcriptomic profile and histology patch provide only weakly aligned and partially overlapping views of tissue state. In multi-patient, multi-slice cohorts, technical effects such as staining variability and acquisition-specific signatures can correlate across modalities, allowing contrastive objectives to achieve apparent alignment through cohort-driven shortcuts rather than biologically meaningful correspondence. Learning multimodal embeddings that support reliable cross-modal matching while preserving biological structure, mitigating cohort confounding, and respecting spatial organization therefore remains an open challenge. This thesis introduces STitch (Spatial Transcriptomic Integration of Transcriptomes and Cellular Histology), a spatially aware multimodal contrastive framework tailored to weakly paired spot-based ST data. The method adopts a CLIP-inspired dual-encoder architecture that embeds image patches and transcriptomic profiles into a shared latent space. Multi-slice spatial organization is modeled through a slice-aware continuous 3D positional encoding, capturing both intra-slice geometry and inter-slice relationships without relying on discrete patient or slice labels. To reduce shortcut alignment driven by spatial proximity or cohort identity, the framework combines instance-level pairing with residualized cross-view anchor mining, identifying additional cross-modal positives after accounting for spatial and cohort-related components. Spatial coherence is further encouraged through an explicit spatial affinity regularization term integrated into the contrastive objective, promoting controlled local smoothness without oversmoothing tissue boundaries. The proposed approach is evaluated against representative multimodal baselines (MUSE, MuCST, and mclSTExp) on a multi-patient breast cancer dataset, on simulated benchmarks with controlled sparsity and cross-modal mismatch, and under out-of-domain transfer on the HESCAPE benchmark using frozen embeddings. Across these settings, it improves cross-modal retrieval and robustness to cohort effects while better preserving tumor-related organization and coherent spatial gradients in the learned embedding space. Overall, this work demonstrates that explicitly modeling slice-aware spatial geometry and controlling shortcut mechanisms during contrastive optimization are essential for robust multimodal learning in spot-based spatial transcriptomics. The proposed framework provides a principled adaptation of contrastive learning to weakly paired, spatially structured biomedical data.

La spatial transcriptomics (ST) basata su spot consente di misurare l’espressione genica preservando la geometria del tessuto, permettendo un’analisi congiunta dei profili molecolari e della morfologia istologica. Tuttavia, ciascuno spot aggrega più cellule, per cui il profilo trascrittomico e la patch istologica associata costituiscono viste solo debolmente allineate e parzialmente sovrapposte dello stato biologico del tessuto. In coorti multi-paziente e multi-sezione, effetti tecnici quali variabilità di colorazione e protocolli di acquisizione possono risultare correlati tra modalità diverse, consentendo agli obiettivi contrastivi di ottenere un allineamento apparente sfruttando scorciatoie legate alla coorte piuttosto che corrispondenze biologicamente significative. Apprendere rappresentazioni multimodali che garantiscano un matching cross-modale affidabile, preservando al contempo la struttura biologica, mitigando i fattori di confondimento legati a paziente e sezione e rispettando l’organizzazione spaziale del tessuto, rappresenta pertanto una sfida ancora aperta. Questa tesi introduce STitch (Spatial Transcriptomic Integration of Transcriptomes and Cellular Histology), un framework contrastivo multimodale consapevole della struttura spaziale, progettato per dati ST basati su spot con accoppiamento debole tra modalità. Il metodo adotta un’architettura a doppio encoder ispirata a CLIP, che proietta patch istologiche e profili trascrittomici in uno spazio latente condiviso. La struttura spaziale multi-sezione è modellata mediante una codifica posizionale tridimensionale continua e slice-aware, capace di catturare sia la geometria intra-sezione sia le relazioni tra sezioni dello stesso paziente, senza ricorrere a etichette discrete di paziente o slice. Per ridurre fenomeni di shortcut learning dovuti alla prossimità spaziale o all’identità di coorte, il framework combina l’accoppiamento istanza-per-istanza con una procedura di residualized cross-view anchor mining, che identifica ulteriori coppie positive cross-modali dopo aver rimosso le componenti legate alla struttura spaziale e tecnica. La coerenza spaziale è inoltre favorita tramite un termine esplicito di affinità spaziale integrato nell’obiettivo contrastivo, che promuove una regolarizzazione locale controllata evitando fenomeni di oversmoothing ai confini tra regioni tissutali. L’approccio proposto è valutato rispetto a baseline multimodali rappresentative (MUSE, MuCST e mclSTExp) su un dataset reale multi-paziente di carcinoma mammario, su benchmark simulati con sparsità e disallineamento cross-modale controllati e in regime di trasferimento out-of-domain sul benchmark HESCAPE mediante embedding congelati. In tali scenari, si osserva un miglioramento dell’allineamento cross-modale e della robustezza agli effetti di coorte, con una più efficace preservazione dell’organizzazione tumorale e di gradienti spaziali coerenti nello spazio latente. Nel complesso, questo lavoro evidenzia come la modellazione esplicita della geometria slice-aware e il controllo delle scorciatoie durante l’ottimizzazione contrastiva siano elementi chiave per un apprendimento multimodale robusto nella spatial transcriptomics basata su spot. Il framework proposto rappresenta un adattamento principled del paradigma contrastivo a dati biomedici debolmente accoppiati e strutturalmente spaziali.