Estensione di architetture software e tecniche di analisi semantica per la predizione di annotazioni genomiche funzionali

Negli ultimi anni l’introduzione delle tecnologie per il sequenziamento dell’intero genoma di organismi biologici ha rivoluzionato l’approccio allo studio delle funzionalità biologiche degli esseri viventi. Il problema si è spostato da come generare i dati a come gestire e sfruttare la mole di informazioni prodotta. Una delle soluzioni proposte è il concetto di annotazione, cioè l’associazione di informazioni utili a sequenze molecolari che descrivono la conoscenza disponibile delle caratteristiche strutturali e funzionali di tali sequenze. L’interpretazione dei moderni esperimenti di biologia molecolare dipende fortemente dalla consistenza e completezza delle annotazioni esistenti. Le annotazioni sono inserite in banche dati da degli esperti di settore che analizzano la letteratura disponibile, attività lenta e soggetta ad errori; pertanto tali banche dati sono per definizione incomplete e, a volte, incorrette. Per arginare questo problema, la creazione di strumenti informatici per facilitare e velocizzare il processo di inserimento di nuove annotazioni risulta importante e molto utile. Alcuni algoritmi di predizione sono stati proposti in letteratura, ma essi presentano limiti relativi ai tipi di dato utilizzabili, alle prestazioni, all’affidabilità e alla mancanza di meccanismi che li rendano pienamente automatizzati. Altri strumenti invece utilizzano dei modelli matematici molto generali, mutuati dagli ambiti di Elaborazione del Linguaggio Naturale e dell’analisi semantica di documenti. Ne è un esempio AnnotationPredictor sviluppato nel Gruppo di Basi di Dati e Bioinformatica del Politecnico di Milano, un applicativo per la predizione di annotazioni basato su tecniche di analisi semantica vettoriale. Nella presente tesi intendo descrivere il lavoro che ho svolto per estenderne l’architettura con ulteriori algoritmi, illustrando le modifiche architetturali implementate per permette l’integrazione dell’algoritmo pLSA e delle funzioni di peso tf-idf. Procederò quindi alla valutazione delle prestazioni delle nuove soluzioni proposte. I risultati ottenuti mostrano la validità dei nuovi metodi ma evidenziano anche problematiche legate all’onere computazionale.

Estensione di architetture software e tecniche di analisi semantica per la predizione di annotazioni genomiche funzionali

PINOLI, PIETRO

2011/2012

Abstract

Negli ultimi anni l’introduzione delle tecnologie per il sequenziamento dell’intero genoma di organismi biologici ha rivoluzionato l’approccio allo studio delle funzionalità biologiche degli esseri viventi. Il problema si è spostato da come generare i dati a come gestire e sfruttare la mole di informazioni prodotta. Una delle soluzioni proposte è il concetto di annotazione, cioè l’associazione di informazioni utili a sequenze molecolari che descrivono la conoscenza disponibile delle caratteristiche strutturali e funzionali di tali sequenze. L’interpretazione dei moderni esperimenti di biologia molecolare dipende fortemente dalla consistenza e completezza delle annotazioni esistenti. Le annotazioni sono inserite in banche dati da degli esperti di settore che analizzano la letteratura disponibile, attività lenta e soggetta ad errori; pertanto tali banche dati sono per definizione incomplete e, a volte, incorrette. Per arginare questo problema, la creazione di strumenti informatici per facilitare e velocizzare il processo di inserimento di nuove annotazioni risulta importante e molto utile. Alcuni algoritmi di predizione sono stati proposti in letteratura, ma essi presentano limiti relativi ai tipi di dato utilizzabili, alle prestazioni, all’affidabilità e alla mancanza di meccanismi che li rendano pienamente automatizzati. Altri strumenti invece utilizzano dei modelli matematici molto generali, mutuati dagli ambiti di Elaborazione del Linguaggio Naturale e dell’analisi semantica di documenti. Ne è un esempio AnnotationPredictor sviluppato nel Gruppo di Basi di Dati e Bioinformatica del Politecnico di Milano, un applicativo per la predizione di annotazioni basato su tecniche di analisi semantica vettoriale. Nella presente tesi intendo descrivere il lavoro che ho svolto per estenderne l’architettura con ulteriori algoritmi, illustrando le modifiche architetturali implementate per permette l’integrazione dell’algoritmo pLSA e delle funzioni di peso tf-idf. Procederò quindi alla valutazione delle prestazioni delle nuove soluzioni proposte. I risultati ottenuti mostrano la validità dei nuovi metodi ma evidenziano anche problematiche legate all’onere computazionale.

Scheda breve

Scheda completa

	Relatore
	
				MASSEROLI, MARCO
			
	Correlatore/i
	
				CHICCO, DAVIDE
			
	Scuola / Dip.
	
				ING V - Scuola di Ingegneria dell'Informazione
			
	Data
	
				20-dic-2012
			
	Anno accademico
	
				2011/2012
			
	Tipo di documento
	
				Tesi di laurea Magistrale
			
	Appare nelle tipologie:
	
				Tesi di laurea Magistrale

File allegati

File	Dimensione	Formato
frontespizio.pdf accessibile in internet per tutti Descrizione: "frontespizio" Dimensione 197.79 kB Formato Adobe PDF Visualizza/Apri	197.79 kB	Adobe PDF	Visualizza/Apri
indice_capitoli.pdf accessibile in internet per tutti Descrizione: "Indice capitoli" Dimensione 413.47 kB Formato Adobe PDF Visualizza/Apri	413.47 kB	Adobe PDF	Visualizza/Apri
test_tesi.pdf accessibile in internet per tutti Descrizione: "Testo della tesi" Dimensione 3.36 MB Formato Adobe PDF Visualizza/Apri	3.36 MB	Adobe PDF	Visualizza/Apri
indice_figure.pdf accessibile in internet per tutti Descrizione: "indice delle figure" Dimensione 484.01 kB Formato Adobe PDF Visualizza/Apri	484.01 kB	Adobe PDF	Visualizza/Apri
indice_tabelle.pdf accessibile in internet per tutti Descrizione: "indice delle tabelle" Dimensione 330.39 kB Formato Adobe PDF Visualizza/Apri	330.39 kB	Adobe PDF	Visualizza/Apri
bibliografia.pdf accessibile in internet per tutti Descrizione: "Bibliografia" Dimensione 403.57 kB Formato Adobe PDF Visualizza/Apri	403.57 kB	Adobe PDF	Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/72429