This thesis, carried out in collaboration with the UK Dementia Research Institute Neurogenomics Lab at Imperial College London, investigates whether incorporating non-human primate data into the training set of deep learning models improves human epigenomic prediction. Gene regulation is a key determinant of cellular identity, and its disruption is implicated in numerous human diseases. Epigenomic profiling methods such as ATAC-seq and ChIP-seq for histone modifications have enabled systematic mapping of regulatory elements, but these experiments are costly and cannot feasibly cover all cell types, tissues, and variants. Deep learning models now allow the prediction of epigenomic signals directly from DNA sequence, providing genome-wide inference even where no experimental data exist. However, most models are trained exclusively on human data, which may limit their generalization and reduce their ability to capture conserved regulatory features. To address this, a lightweight convolutional neural network was trained on ATAC-seq and four histone modifications (H3K27ac, H3K4me1, H3K4me3, H3K36me3) using both a human-only and a multi-species datasets integrating human, chimpanzee, gorilla, and macaque. Performance was evaluated genome-wide and within high-signal regulatory regions, across architectures with varying levels of species awareness and parameter sharing. Multi-species training consistently improved human epigenomic prediction, with largest gains observed in high-signal regions. ATAC-seq benefited most at the genome-wide level, while histone modifications showed stronger relative improvements in high-signal regions. Architectures that share parameters up to the final layer slightly outperformed those that allocate separate species-specific output heads, suggesting that maximizing parameter sharing helps capture conserved regulatory grammars across species. These findings demonstrate that incorporating closely related primate data enhances model generalization and supports the integration of cross-species information as a strategy to improve regulatory genomics prediction.

Questa tesi, sviluppata in collaborazione con lo UK Dementia Research Institute presso l'Imperial College London, indaga se l’inclusione di dati di primati non umani nel set di addestramento di modelli di deep learning migliori la predizione di segnali epigenomici umani. La regolazione genica è un processo fondamentale per l’identità cellulare, e la sua alterazione è implicata in numerose malattie. Le tecniche di profilazione epigenomica, come ATAC-seq e ChIP-seq, hanno permesso di mappare sistematicamente gli elementi regolatori, ma sono costose e non possono coprire in modo esaustivo tutti i tipi cellulari, i tessuti e le varianti. I modelli di deep learning consentono oggi di predire i segnali epigenomici direttamente dalla sequenza del DNA, fornendo inferenza su scala genomica anche in assenza di dati sperimentali. Tuttavia, la maggior parte di questi modelli è addestrata esclusivamente su dati umani, il che può limitarne la capacità di generalizzare e ridurne l’abilità di catturare caratteristiche regolatorie. Per affrontare questo limite, è stata addestrata una rete neurale convoluzionale leggera su segnali ATAC-seq e di quattro modifiche istoniche (H3K27ac, H3K4me1, H3K4me3, H3K36me3), utilizzando sia un dataset composto unicamente da dati umani sia un dataset multi-specie comprendente dati di uomo, scimpanzé, gorilla e macaco. Le prestazioni sono state valutate a livello genome-wide e nelle regioni regolatorie ad alta intensità di segnale. L’addestramento multi-specie ha migliorato in modo consistente la predizione epigenomica umana, con i guadagni maggiori osservati nelle regioni ad alta intensità di segnale. ATAC-seq ha beneficiato maggiormente a livello genome-wide, mentre le modifiche istoniche hanno mostrato incrementi più marcati nelle regioni ad alta intensità. Inoltre, le architetture che condividono i parametri fino ai layer di output hanno performato leggermente meglio di quelle che utilizzano teste di output specie-specifiche, suggerendo che una condivisione estesa dei parametri favorisca la cattura di pattern regolatori conservati. Questi risultati dimostrano che l’integrazione di dati di primati strettamente imparentati migliora la capacità di generalizzazione dei modelli e supporta l’uso di informazioni cross-species come strategia per potenziare la predizione in genomica regolatoria.

Exploiting primate genetic diversity to enhance human epigenomic prediction : a deep learning approach to cross-species sequence modelling

Veronelli, Giovanni
2024/2025

Abstract

This thesis, carried out in collaboration with the UK Dementia Research Institute Neurogenomics Lab at Imperial College London, investigates whether incorporating non-human primate data into the training set of deep learning models improves human epigenomic prediction. Gene regulation is a key determinant of cellular identity, and its disruption is implicated in numerous human diseases. Epigenomic profiling methods such as ATAC-seq and ChIP-seq for histone modifications have enabled systematic mapping of regulatory elements, but these experiments are costly and cannot feasibly cover all cell types, tissues, and variants. Deep learning models now allow the prediction of epigenomic signals directly from DNA sequence, providing genome-wide inference even where no experimental data exist. However, most models are trained exclusively on human data, which may limit their generalization and reduce their ability to capture conserved regulatory features. To address this, a lightweight convolutional neural network was trained on ATAC-seq and four histone modifications (H3K27ac, H3K4me1, H3K4me3, H3K36me3) using both a human-only and a multi-species datasets integrating human, chimpanzee, gorilla, and macaque. Performance was evaluated genome-wide and within high-signal regulatory regions, across architectures with varying levels of species awareness and parameter sharing. Multi-species training consistently improved human epigenomic prediction, with largest gains observed in high-signal regions. ATAC-seq benefited most at the genome-wide level, while histone modifications showed stronger relative improvements in high-signal regions. Architectures that share parameters up to the final layer slightly outperformed those that allocate separate species-specific output heads, suggesting that maximizing parameter sharing helps capture conserved regulatory grammars across species. These findings demonstrate that incorporating closely related primate data enhances model generalization and supports the integration of cross-species information as a strategy to improve regulatory genomics prediction.
SKENE, NATHAN
ING - Scuola di Ingegneria Industriale e dell'Informazione
23-ott-2025
2024/2025
Questa tesi, sviluppata in collaborazione con lo UK Dementia Research Institute presso l'Imperial College London, indaga se l’inclusione di dati di primati non umani nel set di addestramento di modelli di deep learning migliori la predizione di segnali epigenomici umani. La regolazione genica è un processo fondamentale per l’identità cellulare, e la sua alterazione è implicata in numerose malattie. Le tecniche di profilazione epigenomica, come ATAC-seq e ChIP-seq, hanno permesso di mappare sistematicamente gli elementi regolatori, ma sono costose e non possono coprire in modo esaustivo tutti i tipi cellulari, i tessuti e le varianti. I modelli di deep learning consentono oggi di predire i segnali epigenomici direttamente dalla sequenza del DNA, fornendo inferenza su scala genomica anche in assenza di dati sperimentali. Tuttavia, la maggior parte di questi modelli è addestrata esclusivamente su dati umani, il che può limitarne la capacità di generalizzare e ridurne l’abilità di catturare caratteristiche regolatorie. Per affrontare questo limite, è stata addestrata una rete neurale convoluzionale leggera su segnali ATAC-seq e di quattro modifiche istoniche (H3K27ac, H3K4me1, H3K4me3, H3K36me3), utilizzando sia un dataset composto unicamente da dati umani sia un dataset multi-specie comprendente dati di uomo, scimpanzé, gorilla e macaco. Le prestazioni sono state valutate a livello genome-wide e nelle regioni regolatorie ad alta intensità di segnale. L’addestramento multi-specie ha migliorato in modo consistente la predizione epigenomica umana, con i guadagni maggiori osservati nelle regioni ad alta intensità di segnale. ATAC-seq ha beneficiato maggiormente a livello genome-wide, mentre le modifiche istoniche hanno mostrato incrementi più marcati nelle regioni ad alta intensità. Inoltre, le architetture che condividono i parametri fino ai layer di output hanno performato leggermente meglio di quelle che utilizzano teste di output specie-specifiche, suggerendo che una condivisione estesa dei parametri favorisca la cattura di pattern regolatori conservati. Questi risultati dimostrano che l’integrazione di dati di primati strettamente imparentati migliora la capacità di generalizzazione dei modelli e supporta l’uso di informazioni cross-species come strategia per potenziare la predizione in genomica regolatoria.
File allegati
File Dimensione Formato  
2025_10_Veronelli_Thesis_01.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Testo Tesi
Dimensione 2.14 MB
Formato Adobe PDF
2.14 MB Adobe PDF   Visualizza/Apri
2025_10_Veronelli_Executive Summary_02.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Executive Summary
Dimensione 476.07 kB
Formato Adobe PDF
476.07 kB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/243467