Ensemble feature selection for single cell chromatin conformation analysis

Biblioteche e Archivi
POLITesi - Archivio digitale delle tesi di laurea e di dottorato

High-throughput Chromosome Conformation Capture (HI-C) highlight pairwise interactions in the genome; they are used for progressively understanding relevant genetic and epigenetic properties, including the discovery ofchromosome compartments and topological associating domains.Single-cell Hi-C (scHi-c) extends the single-cell approach, initially focusedon transcriptomics, to the Hi-C protocol; it allows measuring 3D chromaticconformation in individual cells.Large scHi-C datasets present significant data analysis challenges, due toredundancy, noise, and nonlinearity.In this work, we propose a pipeline for analysing scHi-c datasets; along thepipeline, we use new/improved methods. We initially use directionality indexes to reduce data sparsity, then we use three distinct methods for featureselection, followed by ensemble methods to merge them, and finally we usea deep learning method for cell classification.We demonstrate the method in two different contexts, the prediction of cellcycle stages and the identification of cell lines.

Chromosome Conformation Capture (HI-C) ad alto rendimento evidenzianole interazioni a coppie nel genoma; sono usati per comprendere progressivamente le propriet ́a genetiche ed epigenetiche rilevanti, inclusa la scoperta dicompartimenti cromosomici e domini topologici associati.Hi-C single-cell (scHi-c) estende l’approccio single-cell, inizialmente focalizzato sulla trascrittomica, al protocollo Hi-C; consente di misurare la conformazione cromatica 3D nelle singole celle.I set di dati scHi-C di grandi dimensioni presentano sfide significative nell’analisidei dati, a causa di ridondanza, rumore e non linearit ́a.In questo lavoro, proponiamo una pipeline per l’analisi dei set di dati scHi-c; lungo la pipeline, utilizziamo metodi nuovi / migliorati. Inizialmente utilizziamo gli indici di direzionalit ́a per ridurre la scarsit ́a dei dati, quindiutilizziamo tre metodi distinti per la selezione delle caratteristiche, seguitida metodi ensemble per unirli e infine utilizziamo un metodo di apprendimento profondo per la classificazione delle celle.Dimostriamo il metodo in due diversi contesti, la previsione degli stadi delciclo cellulare e l’identificazione delle linee cellulari.

Ensemble feature selection for single cell chromatin conformation analysis

ROUHI, AMIRREZA

2019/2020

Abstract

High-throughput Chromosome Conformation Capture (HI-C) highlight pairwise interactions in the genome; they are used for progressively understanding relevant genetic and epigenetic properties, including the discovery ofchromosome compartments and topological associating domains.Single-cell Hi-C (scHi-c) extends the single-cell approach, initially focusedon transcriptomics, to the Hi-C protocol; it allows measuring 3D chromaticconformation in individual cells.Large scHi-C datasets present significant data analysis challenges, due toredundancy, noise, and nonlinearity.In this work, we propose a pipeline for analysing scHi-c datasets; along thepipeline, we use new/improved methods. We initially use directionality indexes to reduce data sparsity, then we use three distinct methods for featureselection, followed by ensemble methods to merge them, and finally we usea deep learning method for cell classification.We demonstrate the method in two different contexts, the prediction of cellcycle stages and the identification of cell lines.

Scheda breve

Scheda completa

	Relatore
	
				CERI, STEFANO
			
	Correlatore/i
	
				CANAKOGLU, ARIF
NANNI, LUCA
PINOLI, PIETRO
			
	Scuola / Dip.
	
				ING  - Scuola di Ingegneria Industriale e dell'Informazione
			
	Data
	
				29-apr-2020
			
	Anno accademico
	
				2019/2020
			
	Abstract in italiano
	
				Chromosome Conformation Capture (HI-C) ad alto rendimento evidenzianole interazioni a coppie nel genoma; sono usati per comprendere progressivamente le propriet ́a genetiche ed epigenetiche rilevanti, inclusa la scoperta dicompartimenti cromosomici e domini topologici associati.Hi-C single-cell (scHi-c) estende l’approccio single-cell, inizialmente focalizzato sulla trascrittomica, al protocollo Hi-C; consente di misurare la conformazione cromatica 3D nelle singole celle.I set di dati scHi-C di grandi dimensioni presentano sfide significative nell’analisidei dati, a causa di ridondanza, rumore e non linearit ́a.In questo lavoro, proponiamo una pipeline per l’analisi dei set di dati scHi-c; lungo la pipeline,  utilizziamo metodi nuovi / migliorati.  Inizialmente utilizziamo  gli  indici  di  direzionalit ́a  per  ridurre  la  scarsit ́a  dei  dati,  quindiutilizziamo tre metodi distinti per la selezione delle caratteristiche, seguitida metodi ensemble per unirli e infine utilizziamo un metodo di apprendimento profondo per la classificazione delle celle.Dimostriamo il metodo in due diversi contesti, la previsione degli stadi delciclo cellulare e l’identificazione delle linee cellulari.
			
	Tipo di documento
	
				Tesi di laurea Magistrale
			
	Appare nelle tipologie:
	
				Tesi di laurea Magistrale

File allegati

File	Dimensione	Formato
Amirreza_Thesis.pdf accessibile in internet per tutti Descrizione: Thesis text Dimensione 2.6 MB Formato Adobe PDF Visualizza/Apri	2.6 MB	Adobe PDF	Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/164420