Estrazione, sentiment analysis e rappresentazione di grandi quantità di messaggi pubblici tramite le tecnologie Big Data

Biblioteche e Archivi
POLITesi - Archivio digitale delle tesi di laurea e di dottorato

The increasing usage of social networks and the improvement of the technologies made possible to access a previously unimaginable amount of messages freely written by the general public. This thesis describes and implements a set of tools to extract, analyze, select and visualize an arbitrarily great amount of messages, poorly managed by classical techniques, exploiting a variety of new technologies for the parallel processing of huge amounts of data, called "Big Data Processing Technologies". To extract knowledge from these messages were therefore discussed and implemented some algorithms to automatically extract the mood of the author and the places cited in the text. Among the important problems addressed in the thesis there is the noise and variety of the texts extracted from web, greater than the ones of the grammatically corrected and uniform texts on which those methods are generally applied.

La rapida diffusione dei social network e il miglioramento delle tecnologie ha reso possibile l'accesso a una quantità prima impensabile di messaggi scritti liberamente dal vasto pubblico. Questa tesi discute e realizza una serie di strumenti per estrarre, analizzare, selezionare e visualizzare delle quantità arbitrariamente grandi di messaggi, scarsamente gestibili con gli strumenti classici, sfruttando una serie di nuove tecnologie per l'elaborazione parallela di enormi quantità di dati, identificate con il termine generico "Big Data Processing Technologies". Per estrarre conoscenza da questi messaggi sono stati inoltre discussi e implementati degli algoritmi che estraggono automaticamente lo stato d'animo dell'utente e i luoghi in essi citati, come trasmessi dal testo. Tra i problemi importanti che si sono affrontati nella tesi vi sono il rumore e la varietà presenti nei testi estratti dal web, molto maggiori rispetto a quelle dei testi grammaticalmente corretti e uniformi sui quali solitamente questi strumenti sono utilizzati.

Estrazione, sentiment analysis e rappresentazione di grandi quantità di messaggi pubblici tramite le tecnologie Big Data

FARINA, JACOPO

2011/2012

Abstract

The increasing usage of social networks and the improvement of the technologies made possible to access a previously unimaginable amount of messages freely written by the general public. This thesis describes and implements a set of tools to extract, analyze, select and visualize an arbitrarily great amount of messages, poorly managed by classical techniques, exploiting a variety of new technologies for the parallel processing of huge amounts of data, called "Big Data Processing Technologies". To extract knowledge from these messages were therefore discussed and implemented some algorithms to automatically extract the mood of the author and the places cited in the text. Among the important problems addressed in the thesis there is the noise and variety of the texts extracted from web, greater than the ones of the grammatically corrected and uniform texts on which those methods are generally applied.

Scheda breve

Scheda completa

	Relatore
	
				TANCA, LETIZIA
			
	Correlatore/i
	
				MURRU, EMANUELE
			
	Scuola / Dip.
	
				ING V - Scuola di Ingegneria dell'Informazione
			
	Data
	
				22-apr-2013
			
	Anno accademico
	
				2011/2012
			
	Abstract in italiano
	
				La rapida diffusione dei social network e il miglioramento delle tecnologie ha reso possibile l'accesso a una quantità prima impensabile di messaggi scritti liberamente dal vasto pubblico.
Questa tesi discute e realizza una serie di strumenti per estrarre, analizzare, selezionare e visualizzare delle quantità arbitrariamente grandi di messaggi, scarsamente gestibili con gli strumenti classici, sfruttando una serie di nuove tecnologie per l'elaborazione parallela di enormi quantità di dati, identificate con il termine generico "Big Data Processing Technologies". Per estrarre conoscenza da questi messaggi sono stati inoltre discussi e implementati degli algoritmi che estraggono automaticamente lo stato d'animo dell'utente  e i luoghi in essi citati, come trasmessi dal  testo. Tra i problemi importanti che si sono  affrontati nella tesi vi sono il rumore e la varietà presenti nei testi estratti dal web, molto maggiori rispetto a quelle dei testi grammaticalmente corretti e uniformi sui quali solitamente questi strumenti sono utilizzati.
			
	Tipo di documento
	
				Tesi di laurea Magistrale
			
	Appare nelle tipologie:
	
				Tesi di laurea Magistrale

File allegati

File	Dimensione	Formato
2013_04_Farina.pdf accessibile in internet per tutti Descrizione: Testo della tesi Dimensione 4.02 MB Formato Adobe PDF Visualizza/Apri	4.02 MB	Adobe PDF	Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/78492