In 2013 a study from IBM claimed that 90% of the total data volume existing in that year had been generated between 2011 and 2012. Researchers started focusing on new kinds of support for the next ge- neration of data storage devices and DNA seems to provide a number of advantages that could tackle the actual problems. The main objective of the present work is the study of the possibilities offered by non domain specific machine learning techniques in the context of clustering DNA strands resulting from this process. The clusters obtained are then employed to empower a reconstruction algorithm that is capable of recovering the original strand from the set of its erroneous reads.

Uno studio pubblicato nel 2013 da IBM afferma che il 90% della massa di dati totale esistente in quell’anno sia stata prodotta tra il 2011 e il 2012. Diversi gruppi di ricerca si stanno concentrando su nuove tipologie di materiali utilizzabili nella produzione dispositivi di archiviazione di nuova generazione. L’uso del DNA in questo contesto sembra poter sopperire a alcuni dei problemi attualmente esistenti. Il presente lavoro si propone come obiettivo principale lo studio delle possibilit`a offerte da algoritmi di machine learning non specificamente svi- luppati per lo studio di sequenze di DNA quando questi siano applicati al problema del clustering delle stringhe risultanti dal processo di lettura di archivi basati sulla codifica in DNA. Le partizioni ottenute vengono successivamente utilizzate per attuare un processo di ricostruzione in grado di recuperare il segnale originale a partire da una sequenza di letture affette da errore.

Clustering techniques for DNA signal reconstruction

LO BIANCO, RICCARDO
2017/2018

Abstract

In 2013 a study from IBM claimed that 90% of the total data volume existing in that year had been generated between 2011 and 2012. Researchers started focusing on new kinds of support for the next ge- neration of data storage devices and DNA seems to provide a number of advantages that could tackle the actual problems. The main objective of the present work is the study of the possibilities offered by non domain specific machine learning techniques in the context of clustering DNA strands resulting from this process. The clusters obtained are then employed to empower a reconstruction algorithm that is capable of recovering the original strand from the set of its erroneous reads.
ING - Scuola di Ingegneria Industriale e dell'Informazione
3-ott-2018
2017/2018
Uno studio pubblicato nel 2013 da IBM afferma che il 90% della massa di dati totale esistente in quell’anno sia stata prodotta tra il 2011 e il 2012. Diversi gruppi di ricerca si stanno concentrando su nuove tipologie di materiali utilizzabili nella produzione dispositivi di archiviazione di nuova generazione. L’uso del DNA in questo contesto sembra poter sopperire a alcuni dei problemi attualmente esistenti. Il presente lavoro si propone come obiettivo principale lo studio delle possibilit`a offerte da algoritmi di machine learning non specificamente svi- luppati per lo studio di sequenze di DNA quando questi siano applicati al problema del clustering delle stringhe risultanti dal processo di lettura di archivi basati sulla codifica in DNA. Le partizioni ottenute vengono successivamente utilizzate per attuare un processo di ricostruzione in grado di recuperare il segnale originale a partire da una sequenza di letture affette da errore.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
lo_bianco_thesis.pdf

accessibile in internet per tutti

Descrizione: Thesis text
Dimensione 1.74 MB
Formato Adobe PDF
1.74 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/142915