High-throughput Chromosome Conformation Capture (HI-C) highlight pairwise interactions in the genome; they are used for progressively understanding relevant genetic and epigenetic properties, including the discovery ofchromosome compartments and topological associating domains.Single-cell Hi-C (scHi-c) extends the single-cell approach, initially focusedon transcriptomics, to the Hi-C protocol; it allows measuring 3D chromaticconformation in individual cells.Large scHi-C datasets present significant data analysis challenges, due toredundancy, noise, and nonlinearity.In this work, we propose a pipeline for analysing scHi-c datasets; along thepipeline, we use new/improved methods. We initially use directionality indexes to reduce data sparsity, then we use three distinct methods for featureselection, followed by ensemble methods to merge them, and finally we usea deep learning method for cell classification.We demonstrate the method in two different contexts, the prediction of cellcycle stages and the identification of cell lines.

Chromosome Conformation Capture (HI-C) ad alto rendimento evidenzianole interazioni a coppie nel genoma; sono usati per comprendere progressivamente le propriet ́a genetiche ed epigenetiche rilevanti, inclusa la scoperta dicompartimenti cromosomici e domini topologici associati.Hi-C single-cell (scHi-c) estende l’approccio single-cell, inizialmente focalizzato sulla trascrittomica, al protocollo Hi-C; consente di misurare la conformazione cromatica 3D nelle singole celle.I set di dati scHi-C di grandi dimensioni presentano sfide significative nell’analisidei dati, a causa di ridondanza, rumore e non linearit ́a.In questo lavoro, proponiamo una pipeline per l’analisi dei set di dati scHi-c; lungo la pipeline, utilizziamo metodi nuovi / migliorati. Inizialmente utilizziamo gli indici di direzionalit ́a per ridurre la scarsit ́a dei dati, quindiutilizziamo tre metodi distinti per la selezione delle caratteristiche, seguitida metodi ensemble per unirli e infine utilizziamo un metodo di apprendimento profondo per la classificazione delle celle.Dimostriamo il metodo in due diversi contesti, la previsione degli stadi delciclo cellulare e l’identificazione delle linee cellulari.

Ensemble feature selection for single cell chromatin conformation analysis

ROUHI, AMIRREZA
2019/2020

Abstract

High-throughput Chromosome Conformation Capture (HI-C) highlight pairwise interactions in the genome; they are used for progressively understanding relevant genetic and epigenetic properties, including the discovery ofchromosome compartments and topological associating domains.Single-cell Hi-C (scHi-c) extends the single-cell approach, initially focusedon transcriptomics, to the Hi-C protocol; it allows measuring 3D chromaticconformation in individual cells.Large scHi-C datasets present significant data analysis challenges, due toredundancy, noise, and nonlinearity.In this work, we propose a pipeline for analysing scHi-c datasets; along thepipeline, we use new/improved methods. We initially use directionality indexes to reduce data sparsity, then we use three distinct methods for featureselection, followed by ensemble methods to merge them, and finally we usea deep learning method for cell classification.We demonstrate the method in two different contexts, the prediction of cellcycle stages and the identification of cell lines.
CANAKOGLU, ARIF
NANNI, LUCA
PINOLI, PIETRO
ING - Scuola di Ingegneria Industriale e dell'Informazione
29-apr-2020
2019/2020
Chromosome Conformation Capture (HI-C) ad alto rendimento evidenzianole interazioni a coppie nel genoma; sono usati per comprendere progressivamente le propriet ́a genetiche ed epigenetiche rilevanti, inclusa la scoperta dicompartimenti cromosomici e domini topologici associati.Hi-C single-cell (scHi-c) estende l’approccio single-cell, inizialmente focalizzato sulla trascrittomica, al protocollo Hi-C; consente di misurare la conformazione cromatica 3D nelle singole celle.I set di dati scHi-C di grandi dimensioni presentano sfide significative nell’analisidei dati, a causa di ridondanza, rumore e non linearit ́a.In questo lavoro, proponiamo una pipeline per l’analisi dei set di dati scHi-c; lungo la pipeline, utilizziamo metodi nuovi / migliorati. Inizialmente utilizziamo gli indici di direzionalit ́a per ridurre la scarsit ́a dei dati, quindiutilizziamo tre metodi distinti per la selezione delle caratteristiche, seguitida metodi ensemble per unirli e infine utilizziamo un metodo di apprendimento profondo per la classificazione delle celle.Dimostriamo il metodo in due diversi contesti, la previsione degli stadi delciclo cellulare e l’identificazione delle linee cellulari.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
Amirreza_Thesis.pdf

accessibile in internet per tutti

Descrizione: Thesis text
Dimensione 2.6 MB
Formato Adobe PDF
2.6 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/164420