POLITESI Politecnico di Milano Servizi Bibliotecari di Ateneo Servizi Bibliotecari di Ateneo
 
   ALL THESES       POST GRADUATE THESES       DOCTORAL THESES   
My POLITesi
authorized users
italiano
Please use this identifier to cite or link to this thesis: http://hdl.handle.net/10589/119441

Author: TAGLIABUE, MARCO
Supervisor: DELLA VALLE, EMANUELE
Scientific Disciplinary Sector: ING-INF/05 SISTEMI DI ELABORAZIONE DELLE INFORMAZIONI
Date: 28-Apr-2016
Academic year: 2015/2016
Title: Lexicon-based domain agnostic multilingual sentiment analytics as a service
Italian abstract: L’avvento del Web 2.0 ha portato numerosi cambiamenti nel modo di utilizzare Internet, dando la possibilità a chiunque, di creare e reperire contenuti di qualunque tipo, ma anche di condividere opinioni. Espressione particolare di questa evoluzione sono i social media, in cui i contenuti pubblicati dagli utenti si muovono all’interno di un flusso di dati in real-time. Un campo di studio nato in questo contesto é chiamato Sentiment Analysis, il cui scopo é quello di identificare in maniera automatica informazioni di tipo soggettivo provenienti da testi scritti o parlati. Un’approccio importante in grado di svolgere Sentiment Analysis in real-time e su grandi quantità di dati provenienti da domini di applicazioni differenti (app, sport, ecc.) é chiamato Lexicon-based. Le barriere principali per l’utilizzo sui Social Media di questo tipo di approccio sono legate alla necessità di avere un lessico per ogni lingua con cui si vuole lavorare e alla difficoltà di funzionamento all’interno di analisi di dati provenienti da domini di applicazione differenti. La prima parte di questo lavoro si concentra sul concetto di multilinguismo e sulla possibilità di trasportare le risorse lessicali in inglese come WordNet e SentiWordNet, sul più ampio numero di lingue possibile sfruttando le loro proprietà semantiche. La seconda parte si dedica alla creazione di un servizio Web di Sentiment Analysis, basato su un approccio Lexicon-based, in grado di sfruttare in maniera univoca i lessici multilingue all’interno di analisi di dati real-time su diversi domini. Segue una fase di valutazione comparativa mirata all’analisi delle prestazioni sul dominio delle app (Google Play) e sul dominio del turismo (TripAdvisor) dimostrando di essere comparabile con strumenti monolingue, muovendosi però su 17 lingue differenti. Inoltre è stata valutata la correttezza dello strumento nell’analisi di tweet relativi a un evento sportivo. Viene inoltre presentato un caso reale di applicazione che dimostra il funzionamento del servizio Web di Sentiment Analysis su dati provenienti da Twitter in real-time. Il risultato ha permesso di monitorare l’andamento dell’opinione riguardo ad eventi o brand.
English abstract: The advent of the Web 2.0 brought several changes in the way we use Internet, giving the opportunity to anyone not only to create and trace every kind of contents, but also to share different opinions. Social media are the peculiar expressions of this evolution. On social media, the contents published by the users move within a data flow in real-time. Sentiment Analysis is a study field born in this context, its purpose is to automatically identify subjective information in written or spoken texts. Lexicon-based sentiment analytics is an important approach able to identify subjective information in real-time and on great data volume coming from different domains (travel, apps, sports, etc.). The main barriers for this kind of approach in Social Media are due to the need of having a specific lexicon for every language with which we want to work and also to the operating complexity within the data analysis coming from domains of different application like news, TV programs. The first part of this master thesis is focused on the concept of multilingualism and on the opportunity to carry the English lexical resources like WordNet and SentiWordNet, on a wider range of languages taking advantage of their semantic property. The second part is dedicated to the development of a Web service of Sentiment Analysis, built on a Lexicon-based approach able to utilize multilingual lexicons with a univocal correspondence within the analysis of real-time data and on different application domains. Then, a comparative evaluation phase follows, which is focused on the analysis of the performances on app domain (Google Play) and on travel domain (TripAdvisor), proving its comparability with the monolingual instruments and at the same time covering 17 different languages. It was also evaluated accuracy of the tool on the analysis of tweets in Italian, English and Spanish related to a sporting event. Furthermore, a real case of application shows the operation of the Web service of Sentiment Analysis on data derived from Twitter in real-time. The result has allowed to monitor the evolution of positive and negative opinions from people regarding important events, brand, TV shows.
Italian keywords: analisi del sentimento; elaborazione del linguaggio naturale; semantica; database lessicali
English keywords: sentiment analysis; opinion mining; natural language processing; semantic; lexical database
Language: ita
Appears in Collections:POLITesi >Tesi Specialistiche/Magistrali

Files in This Item:

File Description SizeFormatVisibility
2016_04_Tagliabue.pdfLexicon-based domain-agnostic multilingual sentiment analytics as a service 7.49 MBAdobe PDFView/Open





 

  Support, maintenance and development by SURplus team @ CINECA- Powered by DSpace Software