Recent years witnessed a slow but steady trend toward a more elaborated usage for Web search engines, characterized by a switch from a document search interaction paradigm to an entity search one. The objective of the Search Computing project is the definition of methods and tools supporting multi-domain search, an entity search paradigm working on domain-specific search engines, whose results are aggregated to create a unique answer covering multiple domains. Due to the combinatorial nature of multi-domain search, the number of combinations in the result set is normally very high, and strongly relevant objects tend to combine repeatedly with many other concepts, requiring the user to scroll down the list of results deeply to see alternative, maybe only slightly less relevant, objects. Improving the diversity of the result set is the aim of diversification, which can be defined in the context of multi-domain search as the selection of k elements out of a universe of N combinations, so to maximize a quality criterion that combines the relevance and the diversity of the objects of distinct types seen by the user, thus improving his information-seeking experience. This thesis deals with the problem of diversification for multi-domain search, offering: i) a characterization and a formalization of the problem; ii) a comparative study on major information retrieval diversification approaches to test their applicability in this new context; iii) a quantitative evaluation of the performance of four state-of- the-art diversification algorithms, using adaptations of the evaluation metrics currently adopted in the context of diversification for Web documents; iv) a qualitative evaluation of the perception and utility of diversification in multi-domain search with two user studies. Results provide evidences that the usage of diversification techniques in the multi-domain context is worthwhile and effective, improving both the quality and the perceived utility of multi-domain query results.

Nel corso degli ultimi anni si é assistito ad un importante cambiamento nelle modalità con cui gli utenti usufruiscono dei servizi di ricercaWeb: da un paradigma in cui l' obbiettivo era l'individuazione di singoli documenti (eseguita attraverso motori di ricerca come Google o Bing), si assiste ora ad una prevalenza di attività di esplorazione ed estrazione di dati, molto spesso complessi e aggregati, in cui i servizi di ricerca sono uno strumento al servizio dell'esecuzione di attività più complesse. In tale contesto si inserisce l'attivitá di ricerca del progetto Search Computing (SeCo), il cui obbiettivo e la definizione di metodologie e strumenti a supporto della ricerca multi-dominio, ovvero un tipo di ricerca Web effettuato su motori di ricerca e sistemi di raccolta dati specializzati, i cui risultati vengono integrati al fine di offrire all'utente una risposta univoca che copra approfonditamente molteplici contesti. L'aggregazione dei risultati forniti da differenti servizi web, provenienti da domini di ricerca molteplici e spesso non in relazione tra loro, pone i sistemi di ricerca multi-dominio di fronte al problema di possibili uguaglianze nei dati restituiti da fonti diverse. La diversificazione dei dati comporta un miglioramento nella qualità dei risultati, limitando queste ripetizioni e garantendo una maggiore soddisfazione per l'utente finale dovuta ad una più ampia copertura dei possibili contesti a cui egli può essere interessato. La nostra tesi si pone come obbiettivo quello di indagare il problema della diversificazione dei risultati nelle ricerche web, proponendo uno studio comparativo dei maggiori algoritmi noti nel dominio dell'Information Retrieval, adattandoli al contesto della ricerca e manipolazione di dati multi-dominio. In particolare, il lavoro di tesi ha avuto come scopo lo studio dello stato dell'arte delle principali metriche e tecniche di diversificazione, l'adattamento al contesto di ricerca multi-dominio su dati strutturati degli algoritmi noti, il design di test quantitativi al fine di validarne l'efficacia teorica, e uno studio qualitativo per verificare l'effettivo incremento della qualitá dei risultati nella percezione utente.

Diversification for multi-domain result-sets

VACCARELLA, ANDREA;FOLLO, MICHELE
2009/2010

Abstract

Recent years witnessed a slow but steady trend toward a more elaborated usage for Web search engines, characterized by a switch from a document search interaction paradigm to an entity search one. The objective of the Search Computing project is the definition of methods and tools supporting multi-domain search, an entity search paradigm working on domain-specific search engines, whose results are aggregated to create a unique answer covering multiple domains. Due to the combinatorial nature of multi-domain search, the number of combinations in the result set is normally very high, and strongly relevant objects tend to combine repeatedly with many other concepts, requiring the user to scroll down the list of results deeply to see alternative, maybe only slightly less relevant, objects. Improving the diversity of the result set is the aim of diversification, which can be defined in the context of multi-domain search as the selection of k elements out of a universe of N combinations, so to maximize a quality criterion that combines the relevance and the diversity of the objects of distinct types seen by the user, thus improving his information-seeking experience. This thesis deals with the problem of diversification for multi-domain search, offering: i) a characterization and a formalization of the problem; ii) a comparative study on major information retrieval diversification approaches to test their applicability in this new context; iii) a quantitative evaluation of the performance of four state-of- the-art diversification algorithms, using adaptations of the evaluation metrics currently adopted in the context of diversification for Web documents; iv) a qualitative evaluation of the perception and utility of diversification in multi-domain search with two user studies. Results provide evidences that the usage of diversification techniques in the multi-domain context is worthwhile and effective, improving both the quality and the perceived utility of multi-domain query results.
Campo DC Valore Lingua
dc.collection.id.s a81cb057-a56d-616b-e053-1605fe0a889a *
dc.collection.name Tesi di laurea Magistrale *
dc.contributor.advisor BOZZON, ALESSANDRO -
dc.contributor.author VACCARELLA, ANDREA -
dc.contributor.author FOLLO, MICHELE -
dc.contributor.supervisor FRATERNALI, PIERO -
dc.date.issued 2010-12-20 -
dc.description.abstracteng Recent years witnessed a slow but steady trend toward a more elaborated usage for Web search engines, characterized by a switch from a document search interaction paradigm to an entity search one. The objective of the Search Computing project is the definition of methods and tools supporting multi-domain search, an entity search paradigm working on domain-specific search engines, whose results are aggregated to create a unique answer covering multiple domains. Due to the combinatorial nature of multi-domain search, the number of combinations in the result set is normally very high, and strongly relevant objects tend to combine repeatedly with many other concepts, requiring the user to scroll down the list of results deeply to see alternative, maybe only slightly less relevant, objects. Improving the diversity of the result set is the aim of diversification, which can be defined in the context of multi-domain search as the selection of k elements out of a universe of N combinations, so to maximize a quality criterion that combines the relevance and the diversity of the objects of distinct types seen by the user, thus improving his information-seeking experience. This thesis deals with the problem of diversification for multi-domain search, offering: i) a characterization and a formalization of the problem; ii) a comparative study on major information retrieval diversification approaches to test their applicability in this new context; iii) a quantitative evaluation of the performance of four state-of- the-art diversification algorithms, using adaptations of the evaluation metrics currently adopted in the context of diversification for Web documents; iv) a qualitative evaluation of the perception and utility of diversification in multi-domain search with two user studies. Results provide evidences that the usage of diversification techniques in the multi-domain context is worthwhile and effective, improving both the quality and the perceived utility of multi-domain query results. it_IT
dc.description.abstractita Nel corso degli ultimi anni si é assistito ad un importante cambiamento nelle modalità con cui gli utenti usufruiscono dei servizi di ricercaWeb: da un paradigma in cui l' obbiettivo era l'individuazione di singoli documenti (eseguita attraverso motori di ricerca come Google o Bing), si assiste ora ad una prevalenza di attività di esplorazione ed estrazione di dati, molto spesso complessi e aggregati, in cui i servizi di ricerca sono uno strumento al servizio dell'esecuzione di attività più complesse. In tale contesto si inserisce l'attivitá di ricerca del progetto Search Computing (SeCo), il cui obbiettivo e la definizione di metodologie e strumenti a supporto della ricerca multi-dominio, ovvero un tipo di ricerca Web effettuato su motori di ricerca e sistemi di raccolta dati specializzati, i cui risultati vengono integrati al fine di offrire all'utente una risposta univoca che copra approfonditamente molteplici contesti. L'aggregazione dei risultati forniti da differenti servizi web, provenienti da domini di ricerca molteplici e spesso non in relazione tra loro, pone i sistemi di ricerca multi-dominio di fronte al problema di possibili uguaglianze nei dati restituiti da fonti diverse. La diversificazione dei dati comporta un miglioramento nella qualità dei risultati, limitando queste ripetizioni e garantendo una maggiore soddisfazione per l'utente finale dovuta ad una più ampia copertura dei possibili contesti a cui egli può essere interessato. La nostra tesi si pone come obbiettivo quello di indagare il problema della diversificazione dei risultati nelle ricerche web, proponendo uno studio comparativo dei maggiori algoritmi noti nel dominio dell'Information Retrieval, adattandoli al contesto della ricerca e manipolazione di dati multi-dominio. In particolare, il lavoro di tesi ha avuto come scopo lo studio dello stato dell'arte delle principali metriche e tecniche di diversificazione, l'adattamento al contesto di ricerca multi-dominio su dati strutturati degli algoritmi noti, il design di test quantitativi al fine di validarne l'efficacia teorica, e uno studio qualitativo per verificare l'effettivo incremento della qualitá dei risultati nella percezione utente. it_IT
dc.description.tipolaurea LAUREA SPECIALISTICA it_IT
dc.identifier.uri http://hdl.handle.net/10589/6102 -
dc.language.iso eng it_IT
dc.publisher.country Italy it_IT
dc.publisher.name Politecnico di Milano it_IT
dc.relation.academicyear 2009/2010 it_IT
dc.relation.course INGEGNERIA INFORMATICA it_IT
dc.relation.school ING V - Facolta' di Ingegneria dell'Informazione it_IT
dc.subject.keywordseng result diversification; multi-domain search it_IT
dc.subject.keywordsita diversificazione dei risultati; ricerca multi-dominio it_IT
dc.subject.miur ING-INF/05 SISTEMI DI ELABORAZIONE DELLE INFORMAZIONI it_IT
dc.subject.singlekeyword result diversification *
dc.subject.singlekeyword multi-domain search *
dc.subject.singlekeyword diversificazione dei risultati *
dc.subject.singlekeyword ricerca multi-dominio *
dc.title Diversification for multi-domain result-sets it_IT
dc.type Tesi di laurea Magistrale it_IT
Appare nelle tipologie: Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
2010_12_Follo_Vaccarella.pdf

accessibile in internet per tutti

Descrizione: Testo della tesi
Dimensione 6.08 MB
Formato Adobe PDF
6.08 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/6102