Negli ultimi anni l’introduzione delle tecnologie per il sequenziamento dell’intero genoma di organismi biologici ha rivoluzionato l’approccio allo studio delle funzionalità biologiche degli esseri viventi. Il problema si è spostato da come generare i dati a come gestire e sfruttare la mole di informazioni prodotta. Una delle soluzioni proposte è il concetto di annotazione, cioè l’associazione di informazioni utili a sequenze molecolari che descrivono la conoscenza disponibile delle caratteristiche strutturali e funzionali di tali sequenze. L’interpretazione dei moderni esperimenti di biologia molecolare dipende fortemente dalla consistenza e completezza delle annotazioni esistenti. Le annotazioni sono inserite in banche dati da degli esperti di settore che analizzano la letteratura disponibile, attività lenta e soggetta ad errori; pertanto tali banche dati sono per definizione incomplete e, a volte, incorrette. Per arginare questo problema, la creazione di strumenti informatici per facilitare e velocizzare il processo di inserimento di nuove annotazioni risulta importante e molto utile. Alcuni algoritmi di predizione sono stati proposti in letteratura, ma essi presentano limiti relativi ai tipi di dato utilizzabili, alle prestazioni, all’affidabilità e alla mancanza di meccanismi che li rendano pienamente automatizzati. Altri strumenti invece utilizzano dei modelli matematici molto generali, mutuati dagli ambiti di Elaborazione del Linguaggio Naturale e dell’analisi semantica di documenti. Ne è un esempio AnnotationPredictor sviluppato nel Gruppo di Basi di Dati e Bioinformatica del Politecnico di Milano, un applicativo per la predizione di annotazioni basato su tecniche di analisi semantica vettoriale. Nella presente tesi intendo descrivere il lavoro che ho svolto per estenderne l’architettura con ulteriori algoritmi, illustrando le modifiche architetturali implementate per permette l’integrazione dell’algoritmo pLSA e delle funzioni di peso tf-idf. Procederò quindi alla valutazione delle prestazioni delle nuove soluzioni proposte. I risultati ottenuti mostrano la validità dei nuovi metodi ma evidenziano anche problematiche legate all’onere computazionale.
Estensione di architetture software e tecniche di analisi semantica per la predizione di annotazioni genomiche funzionali
PINOLI, PIETRO
2011/2012
Abstract
Negli ultimi anni l’introduzione delle tecnologie per il sequenziamento dell’intero genoma di organismi biologici ha rivoluzionato l’approccio allo studio delle funzionalità biologiche degli esseri viventi. Il problema si è spostato da come generare i dati a come gestire e sfruttare la mole di informazioni prodotta. Una delle soluzioni proposte è il concetto di annotazione, cioè l’associazione di informazioni utili a sequenze molecolari che descrivono la conoscenza disponibile delle caratteristiche strutturali e funzionali di tali sequenze. L’interpretazione dei moderni esperimenti di biologia molecolare dipende fortemente dalla consistenza e completezza delle annotazioni esistenti. Le annotazioni sono inserite in banche dati da degli esperti di settore che analizzano la letteratura disponibile, attività lenta e soggetta ad errori; pertanto tali banche dati sono per definizione incomplete e, a volte, incorrette. Per arginare questo problema, la creazione di strumenti informatici per facilitare e velocizzare il processo di inserimento di nuove annotazioni risulta importante e molto utile. Alcuni algoritmi di predizione sono stati proposti in letteratura, ma essi presentano limiti relativi ai tipi di dato utilizzabili, alle prestazioni, all’affidabilità e alla mancanza di meccanismi che li rendano pienamente automatizzati. Altri strumenti invece utilizzano dei modelli matematici molto generali, mutuati dagli ambiti di Elaborazione del Linguaggio Naturale e dell’analisi semantica di documenti. Ne è un esempio AnnotationPredictor sviluppato nel Gruppo di Basi di Dati e Bioinformatica del Politecnico di Milano, un applicativo per la predizione di annotazioni basato su tecniche di analisi semantica vettoriale. Nella presente tesi intendo descrivere il lavoro che ho svolto per estenderne l’architettura con ulteriori algoritmi, illustrando le modifiche architetturali implementate per permette l’integrazione dell’algoritmo pLSA e delle funzioni di peso tf-idf. Procederò quindi alla valutazione delle prestazioni delle nuove soluzioni proposte. I risultati ottenuti mostrano la validità dei nuovi metodi ma evidenziano anche problematiche legate all’onere computazionale.File | Dimensione | Formato | |
---|---|---|---|
frontespizio.pdf
accessibile in internet per tutti
Descrizione: "frontespizio"
Dimensione
197.79 kB
Formato
Adobe PDF
|
197.79 kB | Adobe PDF | Visualizza/Apri |
indice_capitoli.pdf
accessibile in internet per tutti
Descrizione: "Indice capitoli"
Dimensione
413.47 kB
Formato
Adobe PDF
|
413.47 kB | Adobe PDF | Visualizza/Apri |
test_tesi.pdf
accessibile in internet per tutti
Descrizione: "Testo della tesi"
Dimensione
3.36 MB
Formato
Adobe PDF
|
3.36 MB | Adobe PDF | Visualizza/Apri |
indice_figure.pdf
accessibile in internet per tutti
Descrizione: "indice delle figure"
Dimensione
484.01 kB
Formato
Adobe PDF
|
484.01 kB | Adobe PDF | Visualizza/Apri |
indice_tabelle.pdf
accessibile in internet per tutti
Descrizione: "indice delle tabelle"
Dimensione
330.39 kB
Formato
Adobe PDF
|
330.39 kB | Adobe PDF | Visualizza/Apri |
bibliografia.pdf
accessibile in internet per tutti
Descrizione: "Bibliografia"
Dimensione
403.57 kB
Formato
Adobe PDF
|
403.57 kB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/72429