In 2013 a study from IBM claimed that 90% of the total data volume existing in that year had been generated between 2011 and 2012. Researchers started focusing on new kinds of support for the next ge- neration of data storage devices and DNA seems to provide a number of advantages that could tackle the actual problems. The main objective of the present work is the study of the possibilities offered by non domain specific machine learning techniques in the context of clustering DNA strands resulting from this process. The clusters obtained are then employed to empower a reconstruction algorithm that is capable of recovering the original strand from the set of its erroneous reads.
Uno studio pubblicato nel 2013 da IBM afferma che il 90% della massa di dati totale esistente in quell’anno sia stata prodotta tra il 2011 e il 2012. Diversi gruppi di ricerca si stanno concentrando su nuove tipologie di materiali utilizzabili nella produzione dispositivi di archiviazione di nuova generazione. L’uso del DNA in questo contesto sembra poter sopperire a alcuni dei problemi attualmente esistenti. Il presente lavoro si propone come obiettivo principale lo studio delle possibilit`a offerte da algoritmi di machine learning non specificamente svi- luppati per lo studio di sequenze di DNA quando questi siano applicati al problema del clustering delle stringhe risultanti dal processo di lettura di archivi basati sulla codifica in DNA. Le partizioni ottenute vengono successivamente utilizzate per attuare un processo di ricostruzione in grado di recuperare il segnale originale a partire da una sequenza di letture affette da errore.
Clustering techniques for DNA signal reconstruction
LO BIANCO, RICCARDO
2017/2018
Abstract
In 2013 a study from IBM claimed that 90% of the total data volume existing in that year had been generated between 2011 and 2012. Researchers started focusing on new kinds of support for the next ge- neration of data storage devices and DNA seems to provide a number of advantages that could tackle the actual problems. The main objective of the present work is the study of the possibilities offered by non domain specific machine learning techniques in the context of clustering DNA strands resulting from this process. The clusters obtained are then employed to empower a reconstruction algorithm that is capable of recovering the original strand from the set of its erroneous reads.| File | Dimensione | Formato | |
|---|---|---|---|
|
lo_bianco_thesis.pdf
accessibile in internet per tutti
Descrizione: Thesis text
Dimensione
1.74 MB
Formato
Adobe PDF
|
1.74 MB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/142915