Sentiment Analysis refers to the application of natural language processing techniques to extract the sentiment expressed by an author in a text, over an object or a topic. Nowadays, the sentiment analysis is widely adopted to analyze the content coming from online Web social media, and extract the people’s opinions regarding brands and products. This process is named Web Reputation analysis. Semantic sentiment analysis tools require extensive domain knowledge to perform their analyses. The majority of the actual software designs require to manually provide and keep up to date, the knowledge database. In this work we propose a novel automatic approach to gather and collect data in order to build a domain knowledge. Our approach exploits the crowdsourcing. Crowdsourcing is a model in which a collection of IT technologies, such as software and telecommunication networks, are exploited to build a virtual platform for outsourcing a certain collection of tasks to a distributed pool of individuals that are willing to perform these tasks. Thus, our approach is based on the idea of acquiring specific domain knowledge by addressing a large online community of individuals through a web application. In this work we proceeded firstly by studying the crowdsourcing phenomenon and by building a set of modeling tools for crowdsourcing applications. Then, we used these tools to develop a crowdsourcing methodology for the sentiment analysis. We identified a set of several options from which we could choose the features of the final crowdsourcing methodology. Thus, we built an experiment consisting on the testing of four different methodologies, represented by four different crowdsourcing web applications. Each methodology differs from the others by exploiting different types of task executed by the users in its community, and distinct paradigms for encouraging user participation and the data collection. In particular, each methodology rewards the users for giving their knowledge, in a different way (monetary compensation, gaming experience, etc.). We addressed a test group of 51 users and we asked them to use our applications and provide their opinions by means of a survey. In this way, we assessed the four methodologies with respect to the user satisfaction variable. Finally, we analyzed the data coming from the experiment to come up with a final proposal of a crowdsourcing methodology to collect data from a large set of individuals in order to populate the knowledge domain of a sentiment analysis tool. This final model maximizes the user satisfaction metric that we chose as quality indicator and thus it results validated according to our parameters and goals.

La Sentiment Analysis consiste nell'applicazione di tecniche automatiche di elaborazione del linguaggio naturale (NLP) per estrarre le opinioni espresse in un testo su un oggetto o un argomento da parte dell’autore. La Sentiment Analysis è spesso utilizzata per analizzare i contenuti provenienti dai social media sul Web ed estrarre le opinioni in materia di brands e prodotti. Questo processo prende il nome di analisi della Web Reputation. Strumenti semantici di analisi del sentimento richiedono un’approfondita conoscenza di dominio per eseguire le loro analisi. Nella maggior parte dei casi il database della conoscenza va costruito e mantenuto aggiornato manualmente. In questo lavoro si propone un nuovo approccio automatico per raccogliere dati al fine di costruire una conoscenza di dominio. Il nostro approccio sfrutta il crowdsourcing. Il crowdsourcing è un modello che utilizza tecnologie IT, come software e reti di telecomunicazione, per costruire una piattaforma virtuale, in cui dei tasks sono svolti in outsourcing da un insieme distribuito di individui che sono disposti a eseguirli. Il nostro approccio si basa sull'idea di acquisire la conoscenza di dominio sfruttando una web application e una comunità online di individui. In questo lavoro si è proceduto in primo luogo studiando il fenomeno del crowdsourcing e costruendo una serie di strumenti di modellazione per la sua applicazione. Abbiamo utilizzato questi strumenti per sviluppare una metodologia di crowdsourcing per un tool di analisi semantica del sentimento. Abbiamo identificato, quindi, una serie di diversi possibili design che una metodologia definitiva avrebbe potuto assumere. Il passo successivo è stato costruire un esperimento consistente nel test di quattro diverse metodologie, rappresentate da quattro differenti crowdsourcing web applications. Ciascuna metodologia si differenzia dalle altre proponendo diversi tipi di compiti agli utenti nella propria comunità e sfruttando paradigmi distinti sia per incoraggiare la partecipazione degli stessi sia per raccogliere dati. In particolare, ogni metodologia premia in modo diverso gli utenti in cambio delle loro informazioni (compensazione monetaria, esperienza di gioco, ecc.). Infine, abbiamo chiesto a un gruppo di prova di 51 utenti di utilizzare le nostre applicazioni e fornire le loro opinioni attraverso un questionario. In questo modo, abbiamo valutato le quattro metodologie rispetto alla variabile rappresentata dalla soddisfazione degli utenti. I dati provenienti dall'esperimento sono stati analizzati allo scopo di elaborare una proposta definitiva di metodologia di crowdsourcing, capace di raccogliere dati da un esteso insieme di individui e popolare, in questo modo, il dominio di conoscenza di uno strumento di analisi semantica del sentimento. Questo modello finale massimizza la soddisfazione degli utenti, cioè la metrica di giudizio da noi scelta, e di conseguenza risulta validato secondo i nostri parametri e obiettivi.

A crowdsourcing methodology for a semantic sentiment analysis engine

PONGETTI, FRANCESCO
2010/2011

Abstract

Sentiment Analysis refers to the application of natural language processing techniques to extract the sentiment expressed by an author in a text, over an object or a topic. Nowadays, the sentiment analysis is widely adopted to analyze the content coming from online Web social media, and extract the people’s opinions regarding brands and products. This process is named Web Reputation analysis. Semantic sentiment analysis tools require extensive domain knowledge to perform their analyses. The majority of the actual software designs require to manually provide and keep up to date, the knowledge database. In this work we propose a novel automatic approach to gather and collect data in order to build a domain knowledge. Our approach exploits the crowdsourcing. Crowdsourcing is a model in which a collection of IT technologies, such as software and telecommunication networks, are exploited to build a virtual platform for outsourcing a certain collection of tasks to a distributed pool of individuals that are willing to perform these tasks. Thus, our approach is based on the idea of acquiring specific domain knowledge by addressing a large online community of individuals through a web application. In this work we proceeded firstly by studying the crowdsourcing phenomenon and by building a set of modeling tools for crowdsourcing applications. Then, we used these tools to develop a crowdsourcing methodology for the sentiment analysis. We identified a set of several options from which we could choose the features of the final crowdsourcing methodology. Thus, we built an experiment consisting on the testing of four different methodologies, represented by four different crowdsourcing web applications. Each methodology differs from the others by exploiting different types of task executed by the users in its community, and distinct paradigms for encouraging user participation and the data collection. In particular, each methodology rewards the users for giving their knowledge, in a different way (monetary compensation, gaming experience, etc.). We addressed a test group of 51 users and we asked them to use our applications and provide their opinions by means of a survey. In this way, we assessed the four methodologies with respect to the user satisfaction variable. Finally, we analyzed the data coming from the experiment to come up with a final proposal of a crowdsourcing methodology to collect data from a large set of individuals in order to populate the knowledge domain of a sentiment analysis tool. This final model maximizes the user satisfaction metric that we chose as quality indicator and thus it results validated according to our parameters and goals.
CAPRA, EUGENIO
ING V - Scuola di Ingegneria dell'Informazione
4-ott-2011
2010/2011
La Sentiment Analysis consiste nell'applicazione di tecniche automatiche di elaborazione del linguaggio naturale (NLP) per estrarre le opinioni espresse in un testo su un oggetto o un argomento da parte dell’autore. La Sentiment Analysis è spesso utilizzata per analizzare i contenuti provenienti dai social media sul Web ed estrarre le opinioni in materia di brands e prodotti. Questo processo prende il nome di analisi della Web Reputation. Strumenti semantici di analisi del sentimento richiedono un’approfondita conoscenza di dominio per eseguire le loro analisi. Nella maggior parte dei casi il database della conoscenza va costruito e mantenuto aggiornato manualmente. In questo lavoro si propone un nuovo approccio automatico per raccogliere dati al fine di costruire una conoscenza di dominio. Il nostro approccio sfrutta il crowdsourcing. Il crowdsourcing è un modello che utilizza tecnologie IT, come software e reti di telecomunicazione, per costruire una piattaforma virtuale, in cui dei tasks sono svolti in outsourcing da un insieme distribuito di individui che sono disposti a eseguirli. Il nostro approccio si basa sull'idea di acquisire la conoscenza di dominio sfruttando una web application e una comunità online di individui. In questo lavoro si è proceduto in primo luogo studiando il fenomeno del crowdsourcing e costruendo una serie di strumenti di modellazione per la sua applicazione. Abbiamo utilizzato questi strumenti per sviluppare una metodologia di crowdsourcing per un tool di analisi semantica del sentimento. Abbiamo identificato, quindi, una serie di diversi possibili design che una metodologia definitiva avrebbe potuto assumere. Il passo successivo è stato costruire un esperimento consistente nel test di quattro diverse metodologie, rappresentate da quattro differenti crowdsourcing web applications. Ciascuna metodologia si differenzia dalle altre proponendo diversi tipi di compiti agli utenti nella propria comunità e sfruttando paradigmi distinti sia per incoraggiare la partecipazione degli stessi sia per raccogliere dati. In particolare, ogni metodologia premia in modo diverso gli utenti in cambio delle loro informazioni (compensazione monetaria, esperienza di gioco, ecc.). Infine, abbiamo chiesto a un gruppo di prova di 51 utenti di utilizzare le nostre applicazioni e fornire le loro opinioni attraverso un questionario. In questo modo, abbiamo valutato le quattro metodologie rispetto alla variabile rappresentata dalla soddisfazione degli utenti. I dati provenienti dall'esperimento sono stati analizzati allo scopo di elaborare una proposta definitiva di metodologia di crowdsourcing, capace di raccogliere dati da un esteso insieme di individui e popolare, in questo modo, il dominio di conoscenza di uno strumento di analisi semantica del sentimento. Questo modello finale massimizza la soddisfazione degli utenti, cioè la metrica di giudizio da noi scelta, e di conseguenza risulta validato secondo i nostri parametri e obiettivi.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
2011_10_Pongetti.pdf

Open Access dal 20/09/2012

Descrizione: Thesis text
Dimensione 6.38 MB
Formato Adobe PDF
6.38 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/25061