Clustering techniques for DNA signal reconstruction

Biblioteche e Archivi
POLITesi - Archivio digitale delle tesi di laurea e di dottorato

In 2013 a study from IBM claimed that 90% of the total data volume existing in that year had been generated between 2011 and 2012. Researchers started focusing on new kinds of support for the next ge- neration of data storage devices and DNA seems to provide a number of advantages that could tackle the actual problems. The main objective of the present work is the study of the possibilities offered by non domain specific machine learning techniques in the context of clustering DNA strands resulting from this process. The clusters obtained are then employed to empower a reconstruction algorithm that is capable of recovering the original strand from the set of its erroneous reads.

Uno studio pubblicato nel 2013 da IBM afferma che il 90% della massa di dati totale esistente in quell’anno sia stata prodotta tra il 2011 e il 2012. Diversi gruppi di ricerca si stanno concentrando su nuove tipologie di materiali utilizzabili nella produzione dispositivi di archiviazione di nuova generazione. L’uso del DNA in questo contesto sembra poter sopperire a alcuni dei problemi attualmente esistenti. Il presente lavoro si propone come obiettivo principale lo studio delle possibilit`a offerte da algoritmi di machine learning non specificamente svi- luppati per lo studio di sequenze di DNA quando questi siano applicati al problema del clustering delle stringhe risultanti dal processo di lettura di archivi basati sulla codifica in DNA. Le partizioni ottenute vengono successivamente utilizzate per attuare un processo di ricostruzione in grado di recuperare il segnale originale a partire da una sequenza di letture affette da errore.

Clustering techniques for DNA signal reconstruction

LO BIANCO, RICCARDO

2017/2018

Abstract

In 2013 a study from IBM claimed that 90% of the total data volume existing in that year had been generated between 2011 and 2012. Researchers started focusing on new kinds of support for the next ge- neration of data storage devices and DNA seems to provide a number of advantages that could tackle the actual problems. The main objective of the present work is the study of the possibilities offered by non domain specific machine learning techniques in the context of clustering DNA strands resulting from this process. The clusters obtained are then employed to empower a reconstruction algorithm that is capable of recovering the original strand from the set of its erroneous reads.

Scheda breve

Scheda completa

	Relatore
	
				MATTEUCCI, MATTEO
			
	Correlatore/i
	
				ANTONINI, MARC
			
	Scuola / Dip.
	
				ING  - Scuola di Ingegneria Industriale e dell'Informazione
			
	Data
	
				3-ott-2018
			
	Anno accademico
	
				2017/2018
			
	Abstract in italiano
	
				Uno studio pubblicato nel 2013 da IBM afferma che il 90% della massa di dati totale esistente in quell’anno sia stata prodotta tra il 2011 e il 2012.
Diversi gruppi di ricerca si stanno concentrando su nuove tipologie di materiali utilizzabili nella produzione dispositivi di archiviazione di nuova generazione. L’uso del DNA in questo contesto sembra poter sopperire a alcuni dei problemi attualmente esistenti.
Il presente lavoro si propone come obiettivo principale lo studio delle possibilit`a offerte da algoritmi di machine learning non specificamente svi- luppati per lo studio di sequenze di DNA quando questi siano applicati al problema del clustering delle stringhe risultanti dal processo di lettura di archivi basati sulla codifica in DNA.
Le partizioni ottenute vengono successivamente utilizzate per attuare un processo di ricostruzione in grado di recuperare il segnale originale a partire da una sequenza di letture affette da errore.
			
	Tipo di documento
	
				Tesi di laurea Magistrale
			
	Appare nelle tipologie:
	
				Tesi di laurea Magistrale

File allegati

File	Dimensione	Formato
lo_bianco_thesis.pdf accessibile in internet per tutti Descrizione: Thesis text Dimensione 1.74 MB Formato Adobe PDF Visualizza/Apri	1.74 MB	Adobe PDF	Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/142915