Hotel Reviews Websites (HRWs) are the most used online sources to help on the evaluation of accommodation alternatives. However, they often present an overwhelming amount of unstructured or only semi-structured information which is not shared between all the systems and which cannot be easily analyzed in an automatic way. This work provides the description of the development and test of a tool that allows the harvesting of data from several HRWs, the data integration and the visualization of the results in order to create a new ranking of the hotels. The tool is a part of a major project called Web2rism, related with the topic of the Web reputation, carried out by the webatelier.net laboratory of the Università della Svizzera Italiana. After a description of the project and of the goals of this report, the thesis provides a deep section of state of art where the double aspect of the work, connected both with the tourism and computer science fields, is described. The tool developed relies on three technological aspects: scraping online data (data mining), data integration algorithms and data visualization. The report shows the decisions taken to perform these three points and the way they have been realized. The test and the evaluation of the tool and of the quality of the data obtained allowed the webatelier.net laboratory to submit a paper at the 18th International Conference in Information Technology and Travel&Tourism named “Harvesting Online Contents: an Analysis of Hotel Reviews Websites”.

Gli Hotel Reviews Websites (HRWs) sono le risorse online più utilizzate come aiuto nella ricerca di un pernottamento. Tuttavia capita frequentemente che ci si trovi di fronte ad una sovrabbondante quantità d’informazioni parzialmente o completamente non strutturate, che non sono condivise da tutti i sistemi e che quindi non possono essere valutate con una procedura automatica. Questo elaborato fornisce la descrizione dello sviluppo e del test di uno strumento che permette la raccolta di dati da una serie di HRWs, l’integrazione dei dati e la visualizzazione dei risultati per rappresentare un nuovo ranking degli hotels. Lo strumento fa parte di un progetto più vasto chiamato Web2rism, che si occupa della reputazione online, sviluppato del laboratorio webatelier.net dell’Università della Svizzera Italiana. Dopo la descrizione del progetto e degli obiettivi di questo elaborato, la tesi contiene un’importante sezione dedicata allo stato dell’arte dove è descritto il duplice aspetto del lavoro: collegato sia al campo del turismo che a quello dell’informatica. Lo strumento sviluppato fa riferimento a tre aspetti tecnologici: lo scraping delle informazioni online (data mining), l’integrazione dei dati e la loro visualizzazione. La tesi espone le decisioni prese per realizzare i tre punti e il modo in cui sono stati sviluppati. Il test e la valutazione dello strumento e della qualità dei dati ottenuti hanno permesso al laboratorio webatelier.net di presentare un articolo alla 18° Conferenza Internazionale in Information Technology e Travel&Tourism chiamato “Harvesting Online Contents: an Analysis of Hotel Reviews Websites”.

A tool for the comparative analysis of hotel reviews : scraping, data integration and visualisation

CERRETTI, FRANCESCO
2009/2010

Abstract

Hotel Reviews Websites (HRWs) are the most used online sources to help on the evaluation of accommodation alternatives. However, they often present an overwhelming amount of unstructured or only semi-structured information which is not shared between all the systems and which cannot be easily analyzed in an automatic way. This work provides the description of the development and test of a tool that allows the harvesting of data from several HRWs, the data integration and the visualization of the results in order to create a new ranking of the hotels. The tool is a part of a major project called Web2rism, related with the topic of the Web reputation, carried out by the webatelier.net laboratory of the Università della Svizzera Italiana. After a description of the project and of the goals of this report, the thesis provides a deep section of state of art where the double aspect of the work, connected both with the tourism and computer science fields, is described. The tool developed relies on three technological aspects: scraping online data (data mining), data integration algorithms and data visualization. The report shows the decisions taken to perform these three points and the way they have been realized. The test and the evaluation of the tool and of the quality of the data obtained allowed the webatelier.net laboratory to submit a paper at the 18th International Conference in Information Technology and Travel&Tourism named “Harvesting Online Contents: an Analysis of Hotel Reviews Websites”.
EYNARD, DAVIDE
ING V - Facolta' di Ingegneria dell'Informazione
31-mar-2011
2009/2010
Gli Hotel Reviews Websites (HRWs) sono le risorse online più utilizzate come aiuto nella ricerca di un pernottamento. Tuttavia capita frequentemente che ci si trovi di fronte ad una sovrabbondante quantità d’informazioni parzialmente o completamente non strutturate, che non sono condivise da tutti i sistemi e che quindi non possono essere valutate con una procedura automatica. Questo elaborato fornisce la descrizione dello sviluppo e del test di uno strumento che permette la raccolta di dati da una serie di HRWs, l’integrazione dei dati e la visualizzazione dei risultati per rappresentare un nuovo ranking degli hotels. Lo strumento fa parte di un progetto più vasto chiamato Web2rism, che si occupa della reputazione online, sviluppato del laboratorio webatelier.net dell’Università della Svizzera Italiana. Dopo la descrizione del progetto e degli obiettivi di questo elaborato, la tesi contiene un’importante sezione dedicata allo stato dell’arte dove è descritto il duplice aspetto del lavoro: collegato sia al campo del turismo che a quello dell’informatica. Lo strumento sviluppato fa riferimento a tre aspetti tecnologici: lo scraping delle informazioni online (data mining), l’integrazione dei dati e la loro visualizzazione. La tesi espone le decisioni prese per realizzare i tre punti e il modo in cui sono stati sviluppati. Il test e la valutazione dello strumento e della qualità dei dati ottenuti hanno permesso al laboratorio webatelier.net di presentare un articolo alla 18° Conferenza Internazionale in Information Technology e Travel&Tourism chiamato “Harvesting Online Contents: an Analysis of Hotel Reviews Websites”.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
2011_03_Cerretti.pdf

solo utenti autorizzati dal 06/03/2012

Descrizione: Testo della tesi
Dimensione 18.04 MB
Formato Adobe PDF
18.04 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/14743