This graduate thesis is part of a broader research project which aims to design a methodology and related tools to assess the quality of the data produced by automated Web reputation analyses. Existing tools for reputation analyses can be divided into two categories: semantic and non semantic. The first base their evaluation of the reputation content of Web information on the semantic interpretation of natural language. The second base their competitiveness on the vastness of the Web information that they consider (high number of sources), but provide a gross evaluation of the reputation content that is obtained without an understanding of the semantic of the content itself. This research, and so the work of thesis, focuses on the first type of tools. The automated interpretation of natural language is still subject to error, especially when the text to analyze comes from Web 2.0 sites. One of the aims of the thesis's work is to design and develop a tool to perform data cleaning, a component that is missing in most existing tools but that it seems to be necessary in order to obtain an acceptable quality of the data produced. Text, as clean as possible, is the input of other components necessary to activate the semantic interpretation of natural language and perform related quality tests. One of these components is designed and developed as part of the thesis's work and it performs Word Sense Disambiguation.

Questo lavoro di tesi trova collocazione come parte di un progetto di ricerca il cui fine è quello di definire una metodologia e i relativi strumenti per valutare la qualità dei dati prodotti da un'analisi automatica di Web reputation. Gli strumenti esistenti a supporto di tali analisi possono essere divisi in semantici e non semantici. I primi basano le loro valutazioni dei contenuti Web sull'interpretazione semantica del linguaggio naturale. I secondi basano la loro competitività sull'alto numero di fonti Web che analizzano, fornendo però un'interpretazione grossolana della reputation, ottenuta senza comprendere la semantica del contenuto. Il progetto di ricerca, e quindi questo lavoro di tesi, è focalizzato sugli strumenti semantici. I risultati ottenuti con tecniche di elaborazione del linguaggio naturale sono tutt'ora soggette ad errori, specialmente nel caso in cui il testo da analizzare provenga da fonti Web 2.0. Uno degli obiettivi del lavoro di tesi è quello di definire e sviluppare uno strumento di data cleaning, componente mancante in molti strumenti di Sentiment Analysis esistenti ma che sembra essere necessario per ottenere una qualità accettabile delle analisi prodotte. Il testo, il più pulito possibile, è l'input di altri componenti necessari ad abilitare l'interpretazione semantica del linguaggio naturale e l'esecuzione dei relativi test di qualità. Uno di questi componenti, relativo alla Word Sense Disambiguation, è definito e sviluppato come parte di questo lavoro.

Sviluppo di una metodologia per la qualità delle analisi di web sentiment basata su tecniche di data cleaning

BRUNI, LEONARDO
2009/2010

Abstract

This graduate thesis is part of a broader research project which aims to design a methodology and related tools to assess the quality of the data produced by automated Web reputation analyses. Existing tools for reputation analyses can be divided into two categories: semantic and non semantic. The first base their evaluation of the reputation content of Web information on the semantic interpretation of natural language. The second base their competitiveness on the vastness of the Web information that they consider (high number of sources), but provide a gross evaluation of the reputation content that is obtained without an understanding of the semantic of the content itself. This research, and so the work of thesis, focuses on the first type of tools. The automated interpretation of natural language is still subject to error, especially when the text to analyze comes from Web 2.0 sites. One of the aims of the thesis's work is to design and develop a tool to perform data cleaning, a component that is missing in most existing tools but that it seems to be necessary in order to obtain an acceptable quality of the data produced. Text, as clean as possible, is the input of other components necessary to activate the semantic interpretation of natural language and perform related quality tests. One of these components is designed and developed as part of the thesis's work and it performs Word Sense Disambiguation.
BARBAGALLO, DONATO
ING V - Facolta' di Ingegneria dell'Informazione
22-ott-2010
2009/2010
Questo lavoro di tesi trova collocazione come parte di un progetto di ricerca il cui fine è quello di definire una metodologia e i relativi strumenti per valutare la qualità dei dati prodotti da un'analisi automatica di Web reputation. Gli strumenti esistenti a supporto di tali analisi possono essere divisi in semantici e non semantici. I primi basano le loro valutazioni dei contenuti Web sull'interpretazione semantica del linguaggio naturale. I secondi basano la loro competitività sull'alto numero di fonti Web che analizzano, fornendo però un'interpretazione grossolana della reputation, ottenuta senza comprendere la semantica del contenuto. Il progetto di ricerca, e quindi questo lavoro di tesi, è focalizzato sugli strumenti semantici. I risultati ottenuti con tecniche di elaborazione del linguaggio naturale sono tutt'ora soggette ad errori, specialmente nel caso in cui il testo da analizzare provenga da fonti Web 2.0. Uno degli obiettivi del lavoro di tesi è quello di definire e sviluppare uno strumento di data cleaning, componente mancante in molti strumenti di Sentiment Analysis esistenti ma che sembra essere necessario per ottenere una qualità accettabile delle analisi prodotte. Il testo, il più pulito possibile, è l'input di altri componenti necessari ad abilitare l'interpretazione semantica del linguaggio naturale e l'esecuzione dei relativi test di qualità. Uno di questi componenti, relativo alla Word Sense Disambiguation, è definito e sviluppato come parte di questo lavoro.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
2010_10_Bruni.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Testo della tesi
Dimensione 1.31 MB
Formato Adobe PDF
1.31 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/5841