The increasing usage of social networks and the improvement of the technologies made possible to access a previously unimaginable amount of messages freely written by the general public. This thesis describes and implements a set of tools to extract, analyze, select and visualize an arbitrarily great amount of messages, poorly managed by classical techniques, exploiting a variety of new technologies for the parallel processing of huge amounts of data, called "Big Data Processing Technologies". To extract knowledge from these messages were therefore discussed and implemented some algorithms to automatically extract the mood of the author and the places cited in the text. Among the important problems addressed in the thesis there is the noise and variety of the texts extracted from web, greater than the ones of the grammatically corrected and uniform texts on which those methods are generally applied.
La rapida diffusione dei social network e il miglioramento delle tecnologie ha reso possibile l'accesso a una quantità prima impensabile di messaggi scritti liberamente dal vasto pubblico. Questa tesi discute e realizza una serie di strumenti per estrarre, analizzare, selezionare e visualizzare delle quantità arbitrariamente grandi di messaggi, scarsamente gestibili con gli strumenti classici, sfruttando una serie di nuove tecnologie per l'elaborazione parallela di enormi quantità di dati, identificate con il termine generico "Big Data Processing Technologies". Per estrarre conoscenza da questi messaggi sono stati inoltre discussi e implementati degli algoritmi che estraggono automaticamente lo stato d'animo dell'utente e i luoghi in essi citati, come trasmessi dal testo. Tra i problemi importanti che si sono affrontati nella tesi vi sono il rumore e la varietà presenti nei testi estratti dal web, molto maggiori rispetto a quelle dei testi grammaticalmente corretti e uniformi sui quali solitamente questi strumenti sono utilizzati.
Estrazione, sentiment analysis e rappresentazione di grandi quantità di messaggi pubblici tramite le tecnologie Big Data
FARINA, JACOPO
2011/2012
Abstract
The increasing usage of social networks and the improvement of the technologies made possible to access a previously unimaginable amount of messages freely written by the general public. This thesis describes and implements a set of tools to extract, analyze, select and visualize an arbitrarily great amount of messages, poorly managed by classical techniques, exploiting a variety of new technologies for the parallel processing of huge amounts of data, called "Big Data Processing Technologies". To extract knowledge from these messages were therefore discussed and implemented some algorithms to automatically extract the mood of the author and the places cited in the text. Among the important problems addressed in the thesis there is the noise and variety of the texts extracted from web, greater than the ones of the grammatically corrected and uniform texts on which those methods are generally applied.File | Dimensione | Formato | |
---|---|---|---|
2013_04_Farina.pdf
accessibile in internet per tutti
Descrizione: Testo della tesi
Dimensione
4.02 MB
Formato
Adobe PDF
|
4.02 MB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/78492