High-throughput Chromosome Conformation Capture (HI-C) highlight pairwise interactions in the genome; they are used for progressively understanding relevant genetic and epigenetic properties, including the discovery ofchromosome compartments and topological associating domains.Single-cell Hi-C (scHi-c) extends the single-cell approach, initially focusedon transcriptomics, to the Hi-C protocol; it allows measuring 3D chromaticconformation in individual cells.Large scHi-C datasets present significant data analysis challenges, due toredundancy, noise, and nonlinearity.In this work, we propose a pipeline for analysing scHi-c datasets; along thepipeline, we use new/improved methods. We initially use directionality indexes to reduce data sparsity, then we use three distinct methods for featureselection, followed by ensemble methods to merge them, and finally we usea deep learning method for cell classification.We demonstrate the method in two different contexts, the prediction of cellcycle stages and the identification of cell lines.
Chromosome Conformation Capture (HI-C) ad alto rendimento evidenzianole interazioni a coppie nel genoma; sono usati per comprendere progressivamente le propriet ́a genetiche ed epigenetiche rilevanti, inclusa la scoperta dicompartimenti cromosomici e domini topologici associati.Hi-C single-cell (scHi-c) estende l’approccio single-cell, inizialmente focalizzato sulla trascrittomica, al protocollo Hi-C; consente di misurare la conformazione cromatica 3D nelle singole celle.I set di dati scHi-C di grandi dimensioni presentano sfide significative nell’analisidei dati, a causa di ridondanza, rumore e non linearit ́a.In questo lavoro, proponiamo una pipeline per l’analisi dei set di dati scHi-c; lungo la pipeline, utilizziamo metodi nuovi / migliorati. Inizialmente utilizziamo gli indici di direzionalit ́a per ridurre la scarsit ́a dei dati, quindiutilizziamo tre metodi distinti per la selezione delle caratteristiche, seguitida metodi ensemble per unirli e infine utilizziamo un metodo di apprendimento profondo per la classificazione delle celle.Dimostriamo il metodo in due diversi contesti, la previsione degli stadi delciclo cellulare e l’identificazione delle linee cellulari.
Ensemble feature selection for single cell chromatin conformation analysis
ROUHI, AMIRREZA
2019/2020
Abstract
High-throughput Chromosome Conformation Capture (HI-C) highlight pairwise interactions in the genome; they are used for progressively understanding relevant genetic and epigenetic properties, including the discovery ofchromosome compartments and topological associating domains.Single-cell Hi-C (scHi-c) extends the single-cell approach, initially focusedon transcriptomics, to the Hi-C protocol; it allows measuring 3D chromaticconformation in individual cells.Large scHi-C datasets present significant data analysis challenges, due toredundancy, noise, and nonlinearity.In this work, we propose a pipeline for analysing scHi-c datasets; along thepipeline, we use new/improved methods. We initially use directionality indexes to reduce data sparsity, then we use three distinct methods for featureselection, followed by ensemble methods to merge them, and finally we usea deep learning method for cell classification.We demonstrate the method in two different contexts, the prediction of cellcycle stages and the identification of cell lines.File | Dimensione | Formato | |
---|---|---|---|
Amirreza_Thesis.pdf
accessibile in internet per tutti
Descrizione: Thesis text
Dimensione
2.6 MB
Formato
Adobe PDF
|
2.6 MB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/164420