Work is mainly focused on the social data that was generated from Milan Expo event through Twitter.Twitter,one of the largest social media site receives tweets in millions everyday. A lot of data was generated from month to month during the period ranging from May to October. This textual or social data was extracted to analyze the people views generally. The objective of our work is to understanding what people think about Expo event. The unstructured data is crawled and then divided into several topics. Domain keywords are generated through the manual analysis, which are then associated to each topic. These domain keywords with their respective topics are then used for the automatic analysis. This work provides a way of reputation analysis of the Milan Expo event using Hadoop which will process the huge amount of data.
Il lavoro è principalmente focalizzata sui dati sociali che è stato generato dall'evento Expo di Milano attraverso Twitter.Twitter , uno dei più grandi sito di social media riceve tweet in milioni di tutti i giorni . Un sacco di dati è stato generato da un mese all'altro durante il periodo che va da maggio a ottobre . Questo testuali o di dati sociali è stato estratto per analizzare il popolo di vista generale. L'obiettivo del nostro lavoro è quello di capire cosa pensa la gente evento Expo . I dati non strutturati sono scansionati e poi diviso in diversi argomenti . Parole chiave dominio sono generate attraverso l'analisi manuale, che vengono poi associati a ciascun argomento . Queste parole chiave dominio con i rispettivi argomenti sono quindi utilizzati per l'analisi automatica . Questo lavoro fornisce un modo di analisi della reputazione della manifestazione Expo Milano utilizzando Hadoop che elabora l'enorme quantità di dati.
Reputation analysis of the Milan Expo event based on Twitter social data
SAINA, ABHISHEK
2014/2015
Abstract
Work is mainly focused on the social data that was generated from Milan Expo event through Twitter.Twitter,one of the largest social media site receives tweets in millions everyday. A lot of data was generated from month to month during the period ranging from May to October. This textual or social data was extracted to analyze the people views generally. The objective of our work is to understanding what people think about Expo event. The unstructured data is crawled and then divided into several topics. Domain keywords are generated through the manual analysis, which are then associated to each topic. These domain keywords with their respective topics are then used for the automatic analysis. This work provides a way of reputation analysis of the Milan Expo event using Hadoop which will process the huge amount of data.File | Dimensione | Formato | |
---|---|---|---|
thesis.pdf
accessibile in internet per tutti
Descrizione: Thesis work
Dimensione
1.88 MB
Formato
Adobe PDF
|
1.88 MB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/115044