In the Internet era, efficient strategy to manage the huge amount of information, which travel as fast as light, from one side of the world to the other, are required. The Internet Big Data available are mostly made by user-user communications, usually written ones. The problem is then to capture all the shades and the subtle sentiment of this copious corpus of texts, without the chance of directly reading it. The aim of this thesis is to apply a challenging text mining algorithm to depict the evolution in time of the reputation of Expo Milano 2015. In fact, one of the most interesting application of this eWOM Big Data is to understand why and what stakeholders think about a company, an event, a product. The perceived reputation of Expo Milano 2015 was mapped using Tweets posted by users, writing either in Italian or in English, along almost one year. The selected aggregate classification method, proposed by Hopkins and King, was combined with a rare-event sampling design technique, introduced to create a more illustrated training set. The model was then taught on an ad hoc training set, where both mainstream opinions and narrow shades shared by small group of users were fully represented. The results were a precise portrayed of stakeholders’ opinions, along the whole duration of the event. Impacting factors in the perceived registered reputation were finally identified. The new model combined with the interesting case study offer a clear example of how Internet data are actually a useful source for detailed reputation description.

Il grande flusso di dati provenienti da Internet è di natura principalmente scritta, frutto di comunicazioni utente-utente. Lo sviluppo di tecniche che siano in grado, sia di gestire queste enormi quantità di dati, sia di analizzare il contenuto di questi testi è ad oggi fondamentale. Il valore di questo tipo di dato, rappresentazione della libera espressione degli utenti sui loro profili social, è infatti inestimabile, perchè di amplissimo utilizzo nell’ambito della valutazione della reputazione di una qualsiasi entità economica o commerciale. Lo scopo applicativo di questo lavoro è quello di descrivere la reputazione percepita relativamente alla grande Esposizione Internazionale, quale è stata Expo Milano 2015. Per fare ciò, si è scelto di studiare i post inerenti degli utenti sulla piattaforma Twitter. Data l’ampiezza dell’evento, è sorta la necessità di integrare le note tecniche di sentiment analysis aggregata (metodo di Hopkins e King) con un nuovo metodo di campionamento, non più casuale ma mirato. Il training set su cui allenare il modello tiene quindi conto dei più svariati fenomeni: dai temi trattati dalla massa ad opinioni più lievi e sottili, postate da un sottogruppo di utenti oppure relative ad eventi minori. Il risultato è una dettagliata descrizione delle opinioni relative a questo evento e una precisa identificazione degli eventi che hanno fatto registrare dei cambi di opinione, sia durante il periodo dell’esposizione che nei mesi immediatamente precedenti e successivi. Gli algoritmi scelti, affiancati all’internazionalità e alla complessità del case-study, offrono una chiara dimostrazione di come il dato social sia utilissimo nel condurre una dettagliata valutazione della reputazione di una qualunque entità economica.

Monitoring rare categories in sentiment and opinion analysis. Expo Milano 2015 on Twitter platform

CALISSANO, ANNA
2014/2015

Abstract

In the Internet era, efficient strategy to manage the huge amount of information, which travel as fast as light, from one side of the world to the other, are required. The Internet Big Data available are mostly made by user-user communications, usually written ones. The problem is then to capture all the shades and the subtle sentiment of this copious corpus of texts, without the chance of directly reading it. The aim of this thesis is to apply a challenging text mining algorithm to depict the evolution in time of the reputation of Expo Milano 2015. In fact, one of the most interesting application of this eWOM Big Data is to understand why and what stakeholders think about a company, an event, a product. The perceived reputation of Expo Milano 2015 was mapped using Tweets posted by users, writing either in Italian or in English, along almost one year. The selected aggregate classification method, proposed by Hopkins and King, was combined with a rare-event sampling design technique, introduced to create a more illustrated training set. The model was then taught on an ad hoc training set, where both mainstream opinions and narrow shades shared by small group of users were fully represented. The results were a precise portrayed of stakeholders’ opinions, along the whole duration of the event. Impacting factors in the perceived registered reputation were finally identified. The new model combined with the interesting case study offer a clear example of how Internet data are actually a useful source for detailed reputation description.
ING - Scuola di Ingegneria Industriale e dell'Informazione
27-apr-2016
2014/2015
Il grande flusso di dati provenienti da Internet è di natura principalmente scritta, frutto di comunicazioni utente-utente. Lo sviluppo di tecniche che siano in grado, sia di gestire queste enormi quantità di dati, sia di analizzare il contenuto di questi testi è ad oggi fondamentale. Il valore di questo tipo di dato, rappresentazione della libera espressione degli utenti sui loro profili social, è infatti inestimabile, perchè di amplissimo utilizzo nell’ambito della valutazione della reputazione di una qualsiasi entità economica o commerciale. Lo scopo applicativo di questo lavoro è quello di descrivere la reputazione percepita relativamente alla grande Esposizione Internazionale, quale è stata Expo Milano 2015. Per fare ciò, si è scelto di studiare i post inerenti degli utenti sulla piattaforma Twitter. Data l’ampiezza dell’evento, è sorta la necessità di integrare le note tecniche di sentiment analysis aggregata (metodo di Hopkins e King) con un nuovo metodo di campionamento, non più casuale ma mirato. Il training set su cui allenare il modello tiene quindi conto dei più svariati fenomeni: dai temi trattati dalla massa ad opinioni più lievi e sottili, postate da un sottogruppo di utenti oppure relative ad eventi minori. Il risultato è una dettagliata descrizione delle opinioni relative a questo evento e una precisa identificazione degli eventi che hanno fatto registrare dei cambi di opinione, sia durante il periodo dell’esposizione che nei mesi immediatamente precedenti e successivi. Gli algoritmi scelti, affiancati all’internazionalità e alla complessità del case-study, offrono una chiara dimostrazione di come il dato social sia utilissimo nel condurre una dettagliata valutazione della reputazione di una qualunque entità economica.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
AnnaCalissanoTesi.pdf

accessibile in internet per tutti

Descrizione: Testo della Tesi
Dimensione 3.11 MB
Formato Adobe PDF
3.11 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/120705