Negli ultimi anni l’introduzione delle tecnologie per il sequenziamento dell’intero genoma di organismi biologici ha rivoluzionato l’approccio allo studio delle funzionalità biologiche degli esseri viventi. Il problema si è spostato da come generare i dati a come gestire e sfruttare la mole di informazioni prodotta. Una delle soluzioni proposte è il concetto di annotazione, cioè l’associazione di informazioni utili a sequenze molecolari che descrivono la conoscenza disponibile delle caratteristiche strutturali e funzionali di tali sequenze. L’interpretazione dei moderni esperimenti di biologia molecolare dipende fortemente dalla consistenza e completezza delle annotazioni esistenti. Le annotazioni sono inserite in banche dati da degli esperti di settore che analizzano la letteratura disponibile, attività lenta e soggetta ad errori; pertanto tali banche dati sono per definizione incomplete e, a volte, incorrette. Per arginare questo problema, la creazione di strumenti informatici per facilitare e velocizzare il processo di inserimento di nuove annotazioni risulta importante e molto utile. Alcuni algoritmi di predizione sono stati proposti in letteratura, ma essi presentano limiti relativi ai tipi di dato utilizzabili, alle prestazioni, all’affidabilità e alla mancanza di meccanismi che li rendano pienamente automatizzati. Altri strumenti invece utilizzano dei modelli matematici molto generali, mutuati dagli ambiti di Elaborazione del Linguaggio Naturale e dell’analisi semantica di documenti. Ne è un esempio AnnotationPredictor sviluppato nel Gruppo di Basi di Dati e Bioinformatica del Politecnico di Milano, un applicativo per la predizione di annotazioni basato su tecniche di analisi semantica vettoriale. Nella presente tesi intendo descrivere il lavoro che ho svolto per estenderne l’architettura con ulteriori algoritmi, illustrando le modifiche architetturali implementate per permette l’integrazione dell’algoritmo pLSA e delle funzioni di peso tf-idf. Procederò quindi alla valutazione delle prestazioni delle nuove soluzioni proposte. I risultati ottenuti mostrano la validità dei nuovi metodi ma evidenziano anche problematiche legate all’onere computazionale.

Estensione di architetture software e tecniche di analisi semantica per la predizione di annotazioni genomiche funzionali

PINOLI, PIETRO
2011/2012

Abstract

Negli ultimi anni l’introduzione delle tecnologie per il sequenziamento dell’intero genoma di organismi biologici ha rivoluzionato l’approccio allo studio delle funzionalità biologiche degli esseri viventi. Il problema si è spostato da come generare i dati a come gestire e sfruttare la mole di informazioni prodotta. Una delle soluzioni proposte è il concetto di annotazione, cioè l’associazione di informazioni utili a sequenze molecolari che descrivono la conoscenza disponibile delle caratteristiche strutturali e funzionali di tali sequenze. L’interpretazione dei moderni esperimenti di biologia molecolare dipende fortemente dalla consistenza e completezza delle annotazioni esistenti. Le annotazioni sono inserite in banche dati da degli esperti di settore che analizzano la letteratura disponibile, attività lenta e soggetta ad errori; pertanto tali banche dati sono per definizione incomplete e, a volte, incorrette. Per arginare questo problema, la creazione di strumenti informatici per facilitare e velocizzare il processo di inserimento di nuove annotazioni risulta importante e molto utile. Alcuni algoritmi di predizione sono stati proposti in letteratura, ma essi presentano limiti relativi ai tipi di dato utilizzabili, alle prestazioni, all’affidabilità e alla mancanza di meccanismi che li rendano pienamente automatizzati. Altri strumenti invece utilizzano dei modelli matematici molto generali, mutuati dagli ambiti di Elaborazione del Linguaggio Naturale e dell’analisi semantica di documenti. Ne è un esempio AnnotationPredictor sviluppato nel Gruppo di Basi di Dati e Bioinformatica del Politecnico di Milano, un applicativo per la predizione di annotazioni basato su tecniche di analisi semantica vettoriale. Nella presente tesi intendo descrivere il lavoro che ho svolto per estenderne l’architettura con ulteriori algoritmi, illustrando le modifiche architetturali implementate per permette l’integrazione dell’algoritmo pLSA e delle funzioni di peso tf-idf. Procederò quindi alla valutazione delle prestazioni delle nuove soluzioni proposte. I risultati ottenuti mostrano la validità dei nuovi metodi ma evidenziano anche problematiche legate all’onere computazionale.
CHICCO, DAVIDE
ING V - Scuola di Ingegneria dell'Informazione
20-dic-2012
2011/2012
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
frontespizio.pdf

accessibile in internet per tutti

Descrizione: "frontespizio"
Dimensione 197.79 kB
Formato Adobe PDF
197.79 kB Adobe PDF Visualizza/Apri
indice_capitoli.pdf

accessibile in internet per tutti

Descrizione: "Indice capitoli"
Dimensione 413.47 kB
Formato Adobe PDF
413.47 kB Adobe PDF Visualizza/Apri
test_tesi.pdf

accessibile in internet per tutti

Descrizione: "Testo della tesi"
Dimensione 3.36 MB
Formato Adobe PDF
3.36 MB Adobe PDF Visualizza/Apri
indice_figure.pdf

accessibile in internet per tutti

Descrizione: "indice delle figure"
Dimensione 484.01 kB
Formato Adobe PDF
484.01 kB Adobe PDF Visualizza/Apri
indice_tabelle.pdf

accessibile in internet per tutti

Descrizione: "indice delle tabelle"
Dimensione 330.39 kB
Formato Adobe PDF
330.39 kB Adobe PDF Visualizza/Apri
bibliografia.pdf

accessibile in internet per tutti

Descrizione: "Bibliografia"
Dimensione 403.57 kB
Formato Adobe PDF
403.57 kB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/72429