Diversification for multi-domain result-sets

Recent years witnessed a slow but steady trend toward a more elaborated usage for Web search engines, characterized by a switch from a document search interaction paradigm to an entity search one. The objective of the Search Computing project is the definition of methods and tools supporting multi-domain search, an entity search paradigm working on domain-specific search engines, whose results are aggregated to create a unique answer covering multiple domains. Due to the combinatorial nature of multi-domain search, the number of combinations in the result set is normally very high, and strongly relevant objects tend to combine repeatedly with many other concepts, requiring the user to scroll down the list of results deeply to see alternative, maybe only slightly less relevant, objects. Improving the diversity of the result set is the aim of diversification, which can be defined in the context of multi-domain search as the selection of k elements out of a universe of N combinations, so to maximize a quality criterion that combines the relevance and the diversity of the objects of distinct types seen by the user, thus improving his information-seeking experience. This thesis deals with the problem of diversification for multi-domain search, offering: i) a characterization and a formalization of the problem; ii) a comparative study on major information retrieval diversification approaches to test their applicability in this new context; iii) a quantitative evaluation of the performance of four state-of- the-art diversification algorithms, using adaptations of the evaluation metrics currently adopted in the context of diversification for Web documents; iv) a qualitative evaluation of the perception and utility of diversification in multi-domain search with two user studies. Results provide evidences that the usage of diversification techniques in the multi-domain context is worthwhile and effective, improving both the quality and the perceived utility of multi-domain query results.

Nel corso degli ultimi anni si é assistito ad un importante cambiamento nelle modalità con cui gli utenti usufruiscono dei servizi di ricercaWeb: da un paradigma in cui l' obbiettivo era l'individuazione di singoli documenti (eseguita attraverso motori di ricerca come Google o Bing), si assiste ora ad una prevalenza di attività di esplorazione ed estrazione di dati, molto spesso complessi e aggregati, in cui i servizi di ricerca sono uno strumento al servizio dell'esecuzione di attività più complesse. In tale contesto si inserisce l'attivitá di ricerca del progetto Search Computing (SeCo), il cui obbiettivo e la definizione di metodologie e strumenti a supporto della ricerca multi-dominio, ovvero un tipo di ricerca Web effettuato su motori di ricerca e sistemi di raccolta dati specializzati, i cui risultati vengono integrati al fine di offrire all'utente una risposta univoca che copra approfonditamente molteplici contesti. L'aggregazione dei risultati forniti da differenti servizi web, provenienti da domini di ricerca molteplici e spesso non in relazione tra loro, pone i sistemi di ricerca multi-dominio di fronte al problema di possibili uguaglianze nei dati restituiti da fonti diverse. La diversificazione dei dati comporta un miglioramento nella qualità dei risultati, limitando queste ripetizioni e garantendo una maggiore soddisfazione per l'utente finale dovuta ad una più ampia copertura dei possibili contesti a cui egli può essere interessato. La nostra tesi si pone come obbiettivo quello di indagare il problema della diversificazione dei risultati nelle ricerche web, proponendo uno studio comparativo dei maggiori algoritmi noti nel dominio dell'Information Retrieval, adattandoli al contesto della ricerca e manipolazione di dati multi-dominio. In particolare, il lavoro di tesi ha avuto come scopo lo studio dello stato dell'arte delle principali metriche e tecniche di diversificazione, l'adattamento al contesto di ricerca multi-dominio su dati strutturati degli algoritmi noti, il design di test quantitativi al fine di validarne l'efficacia teorica, e uno studio qualitativo per verificare l'effettivo incremento della qualitá dei risultati nella percezione utente.