The advent of the Web 2.0 brought several changes in the way we use Internet, giving the opportunity to anyone not only to create and trace every kind of contents, but also to share different opinions. Social media are the peculiar expressions of this evolution. On social media, the contents published by the users move within a data flow in real-time. Sentiment Analysis is a study field born in this context, its purpose is to automatically identify subjective information in written or spoken texts. Lexicon-based sentiment analytics is an important approach able to identify subjective information in real-time and on great data volume coming from different domains (travel, apps, sports, etc.). The main barriers for this kind of approach in Social Media are due to the need of having a specific lexicon for every language with which we want to work and also to the operating complexity within the data analysis coming from domains of different application like news, TV programs. The first part of this master thesis is focused on the concept of multilingualism and on the opportunity to carry the English lexical resources like WordNet and SentiWordNet, on a wider range of languages taking advantage of their semantic property. The second part is dedicated to the development of a Web service of Sentiment Analysis, built on a Lexicon-based approach able to utilize multilingual lexicons with a univocal correspondence within the analysis of real-time data and on different application domains. Then, a comparative evaluation phase follows, which is focused on the analysis of the performances on app domain (Google Play) and on travel domain (TripAdvisor), proving its comparability with the monolingual instruments and at the same time covering 17 different languages. It was also evaluated accuracy of the tool on the analysis of tweets in Italian, English and Spanish related to a sporting event. Furthermore, a real case of application shows the operation of the Web service of Sentiment Analysis on data derived from Twitter in real-time. The result has allowed to monitor the evolution of positive and negative opinions from people regarding important events, brand, TV shows.

L’avvento del Web 2.0 ha portato numerosi cambiamenti nel modo di utilizzare Internet, dando la possibilità a chiunque, di creare e reperire contenuti di qualunque tipo, ma anche di condividere opinioni. Espressione particolare di questa evoluzione sono i social media, in cui i contenuti pubblicati dagli utenti si muovono all’interno di un flusso di dati in real-time. Un campo di studio nato in questo contesto é chiamato Sentiment Analysis, il cui scopo é quello di identificare in maniera automatica informazioni di tipo soggettivo provenienti da testi scritti o parlati. Un’approccio importante in grado di svolgere Sentiment Analysis in real-time e su grandi quantità di dati provenienti da domini di applicazioni differenti (app, sport, ecc.) é chiamato Lexicon-based. Le barriere principali per l’utilizzo sui Social Media di questo tipo di approccio sono legate alla necessità di avere un lessico per ogni lingua con cui si vuole lavorare e alla difficoltà di funzionamento all’interno di analisi di dati provenienti da domini di applicazione differenti. La prima parte di questo lavoro si concentra sul concetto di multilinguismo e sulla possibilità di trasportare le risorse lessicali in inglese come WordNet e SentiWordNet, sul più ampio numero di lingue possibile sfruttando le loro proprietà semantiche. La seconda parte si dedica alla creazione di un servizio Web di Sentiment Analysis, basato su un approccio Lexicon-based, in grado di sfruttare in maniera univoca i lessici multilingue all’interno di analisi di dati real-time su diversi domini. Segue una fase di valutazione comparativa mirata all’analisi delle prestazioni sul dominio delle app (Google Play) e sul dominio del turismo (TripAdvisor) dimostrando di essere comparabile con strumenti monolingue, muovendosi però su 17 lingue differenti. Inoltre è stata valutata la correttezza dello strumento nell’analisi di tweet relativi a un evento sportivo. Viene inoltre presentato un caso reale di applicazione che dimostra il funzionamento del servizio Web di Sentiment Analysis su dati provenienti da Twitter in real-time. Il risultato ha permesso di monitorare l’andamento dell’opinione riguardo ad eventi o brand.

Lexicon-based domain agnostic multilingual sentiment analytics as a service

TAGLIABUE, MARCO
2015/2016

Abstract

The advent of the Web 2.0 brought several changes in the way we use Internet, giving the opportunity to anyone not only to create and trace every kind of contents, but also to share different opinions. Social media are the peculiar expressions of this evolution. On social media, the contents published by the users move within a data flow in real-time. Sentiment Analysis is a study field born in this context, its purpose is to automatically identify subjective information in written or spoken texts. Lexicon-based sentiment analytics is an important approach able to identify subjective information in real-time and on great data volume coming from different domains (travel, apps, sports, etc.). The main barriers for this kind of approach in Social Media are due to the need of having a specific lexicon for every language with which we want to work and also to the operating complexity within the data analysis coming from domains of different application like news, TV programs. The first part of this master thesis is focused on the concept of multilingualism and on the opportunity to carry the English lexical resources like WordNet and SentiWordNet, on a wider range of languages taking advantage of their semantic property. The second part is dedicated to the development of a Web service of Sentiment Analysis, built on a Lexicon-based approach able to utilize multilingual lexicons with a univocal correspondence within the analysis of real-time data and on different application domains. Then, a comparative evaluation phase follows, which is focused on the analysis of the performances on app domain (Google Play) and on travel domain (TripAdvisor), proving its comparability with the monolingual instruments and at the same time covering 17 different languages. It was also evaluated accuracy of the tool on the analysis of tweets in Italian, English and Spanish related to a sporting event. Furthermore, a real case of application shows the operation of the Web service of Sentiment Analysis on data derived from Twitter in real-time. The result has allowed to monitor the evolution of positive and negative opinions from people regarding important events, brand, TV shows.
MARAZZI, CHRISTIAN
ING - Scuola di Ingegneria Industriale e dell'Informazione
28-apr-2016
2015/2016
L’avvento del Web 2.0 ha portato numerosi cambiamenti nel modo di utilizzare Internet, dando la possibilità a chiunque, di creare e reperire contenuti di qualunque tipo, ma anche di condividere opinioni. Espressione particolare di questa evoluzione sono i social media, in cui i contenuti pubblicati dagli utenti si muovono all’interno di un flusso di dati in real-time. Un campo di studio nato in questo contesto é chiamato Sentiment Analysis, il cui scopo é quello di identificare in maniera automatica informazioni di tipo soggettivo provenienti da testi scritti o parlati. Un’approccio importante in grado di svolgere Sentiment Analysis in real-time e su grandi quantità di dati provenienti da domini di applicazioni differenti (app, sport, ecc.) é chiamato Lexicon-based. Le barriere principali per l’utilizzo sui Social Media di questo tipo di approccio sono legate alla necessità di avere un lessico per ogni lingua con cui si vuole lavorare e alla difficoltà di funzionamento all’interno di analisi di dati provenienti da domini di applicazione differenti. La prima parte di questo lavoro si concentra sul concetto di multilinguismo e sulla possibilità di trasportare le risorse lessicali in inglese come WordNet e SentiWordNet, sul più ampio numero di lingue possibile sfruttando le loro proprietà semantiche. La seconda parte si dedica alla creazione di un servizio Web di Sentiment Analysis, basato su un approccio Lexicon-based, in grado di sfruttare in maniera univoca i lessici multilingue all’interno di analisi di dati real-time su diversi domini. Segue una fase di valutazione comparativa mirata all’analisi delle prestazioni sul dominio delle app (Google Play) e sul dominio del turismo (TripAdvisor) dimostrando di essere comparabile con strumenti monolingue, muovendosi però su 17 lingue differenti. Inoltre è stata valutata la correttezza dello strumento nell’analisi di tweet relativi a un evento sportivo. Viene inoltre presentato un caso reale di applicazione che dimostra il funzionamento del servizio Web di Sentiment Analysis su dati provenienti da Twitter in real-time. Il risultato ha permesso di monitorare l’andamento dell’opinione riguardo ad eventi o brand.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
2016_04_Tagliabue.pdf

Open Access dal 09/04/2017

Descrizione: Lexicon-based domain-agnostic multilingual sentiment analytics as a service
Dimensione 7.49 MB
Formato Adobe PDF
7.49 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/119441