When choosing an electronic gadget, a hotel, a restaurant or a movie, many people rely on the reviews available on the web. However, this huge amount of opinions make it difficult for users to have a comprehensive vision of the crowd judgments and perform an optimal decision. In this work we provide evidence that automatic text summarization of reviews can be used to design web applications able to effectively reduce the decision-making effort in domains where decisions are based upon the opinion of the crowd. We have identified the best summarization algorithm and we propose a new approach based on a real time summarization system able to provide to users a quick overview of desired item. The information provided are composed by two summaries per item, built with positive and negative opinions, that capture salient aspects of the crowd’s judgement and are appropriate to perform at least a suboptimal choice. The summarization algorithm used is an improved version of Edmundson summarization technique. It was chosen after an accurate study in the Natural Language Processing (NLP) field. We would like to demonstrate that providing polarized summaries instead of a reviews set could be a better approach to improve the users’ decision-making process and solve the information overload problem. To prove this we performed an online A/B test discovering that this novel approach is able to dramatically reduce the users’ decision-making effort. A multi domain autonomous summarization system able to deal with sarcasm, slang and informal written forms was created. Furthermore we have improved the Edmundson classic metrics adjusting them using available information on the review sources. In the end we achieved the goal of this study, demonstrating that providing polarized summaries instead reviews improve the user decision-making process. This approach provides only the desired meaningful information in few sentences and it is able to solve the information overload problem. Providing polarized summaries instead reviews will not be perceived as lack of information.

Il processo decisionale delle persone è sempre più influenzato dalle opinioni di altre persone. Quando ci troviamo a dover compiere delle scelte, in quale hotel alloggiare, il ristorante per la cena, il nuovo dispositivo elettronico, ci fidiamo sempre più delle recensioni di utenti presenti su Internet, rispetto alle recensioni di critici, riviste o esperti di settore. Stiamo assistendo ad una proliferazione di contenuti generati dagli utenti. Prendendo ad esempio TripAdvisor, il portale ha recentemente passato i 150 milioni di recensioni e totalizza più di 90 contributi al minuto da parte degli utenti. Questa mole massiccia di dati, contiene al suo interno una base di verità che, in principio, può guidare il processo decisionale di una persona. Troppe informazioni rendono difficile ottenere una visione globale del giudizio dagli utenti e, di conseguenza, capire se è la scelta giusta da compiere. Lo scopo del nostro lavoro è aiutare gli utenti a compiere la scelta giusta con il minor sforzo. La Bounded Rationality Theory afferma che le persone in procinto di prendere una decisione cercano continuamente di trovare un bilanciamento tra la conoscenza richiesta, per poter prendere la decisione ottimale e lo sforzo richiesto a tale scopo. Quando vengono a mancare l’abilità o le risorse per arrivare alla soluzione ottima, si semplificano e riducono le soluzioni accettabili tendendo quindi verso una soluzione subottimale. Il nostro approccio consiste nel ridurre lo sforzo richiesto all’utente, riducendo la quantità di informazioni che esso deve assimilare, offrendogli solo una visione ristretta del parere di altre persone. Nel dettaglio, verranno presentati riassunti costruiti tramite le recensioni più significative scritte dagli utenti, con lo scopo di guidarli nella scelta di almeno una soluzione subottimale. L’ambito dei riassunti è un argomento di forte interesse, Summly, un servizio di riassunti di notizie online nato con lo scopo di semplificare come gli utenti leggono le notizie dai dispositivi mobili, è stato recentemente acquistato da Yahoo per circa 30 milioni di dollari. Rispetto a questo servizio, e ad altri studi accademici, il nostro studio ha uno scopo diverso: fornire un supporto al processo decisionale dell’utente. Adottando una tecnica innovativa che non si limita a riassumere un solo testo, ma effettua il riassunto di più testi, utilizzando una versione migliorata dell’algoritmo di Edmundson. All’utente verranno presentati due riassunti, uno contenente gli aspetti positivi, l’altro contenente gli aspetti negativi, al fine di offrire una visione più affidabile e bilanciata del parere degli utenti. Il lavoro è stato svolto nel dominio delle prenotazioni tavoli ai ristoranti e nel dominio dell’elettronica di consumo. Abbiamo condotto due diversi studi ed esperimenti con gli utenti; il primo, atto ad identificare quale sia la migliore tecnica per compiere riassunti automatici senza supervisione, verificando se l’approccio proposto risulti efficace. Il secondo, volto a provare la notevole riduzione di sforzo, richiesta all’utente, per portare a compimento una scelta e dimostrare che tale riduzione non dipende dal dominio scelto. Utilizzare tecniche riassuntive su domini misti e diversi dalle news, dove la forma scritta è formale e di conseguenza simile per tutte le fonti, o da altri domini specifici, come i testi medici, dove viene eseguita prima una fase di training del sistema, apre le porte a nuove problematiche. Abbiamo dovuto affrontare nuove sfide per poter creare un sistema di riassunti autonomo, non dipendente dal dominio di applicazione, gestendo slang, sarcasmo e linguaggio informale.

Automatic summarization as decision making support tool

GUSMEROLI, FRANCESCO;GUARNERIO, MATTEO
2014/2015

Abstract

When choosing an electronic gadget, a hotel, a restaurant or a movie, many people rely on the reviews available on the web. However, this huge amount of opinions make it difficult for users to have a comprehensive vision of the crowd judgments and perform an optimal decision. In this work we provide evidence that automatic text summarization of reviews can be used to design web applications able to effectively reduce the decision-making effort in domains where decisions are based upon the opinion of the crowd. We have identified the best summarization algorithm and we propose a new approach based on a real time summarization system able to provide to users a quick overview of desired item. The information provided are composed by two summaries per item, built with positive and negative opinions, that capture salient aspects of the crowd’s judgement and are appropriate to perform at least a suboptimal choice. The summarization algorithm used is an improved version of Edmundson summarization technique. It was chosen after an accurate study in the Natural Language Processing (NLP) field. We would like to demonstrate that providing polarized summaries instead of a reviews set could be a better approach to improve the users’ decision-making process and solve the information overload problem. To prove this we performed an online A/B test discovering that this novel approach is able to dramatically reduce the users’ decision-making effort. A multi domain autonomous summarization system able to deal with sarcasm, slang and informal written forms was created. Furthermore we have improved the Edmundson classic metrics adjusting them using available information on the review sources. In the end we achieved the goal of this study, demonstrating that providing polarized summaries instead reviews improve the user decision-making process. This approach provides only the desired meaningful information in few sentences and it is able to solve the information overload problem. Providing polarized summaries instead reviews will not be perceived as lack of information.
ING - Scuola di Ingegneria Industriale e dell'Informazione
18-dic-2015
2014/2015
Il processo decisionale delle persone è sempre più influenzato dalle opinioni di altre persone. Quando ci troviamo a dover compiere delle scelte, in quale hotel alloggiare, il ristorante per la cena, il nuovo dispositivo elettronico, ci fidiamo sempre più delle recensioni di utenti presenti su Internet, rispetto alle recensioni di critici, riviste o esperti di settore. Stiamo assistendo ad una proliferazione di contenuti generati dagli utenti. Prendendo ad esempio TripAdvisor, il portale ha recentemente passato i 150 milioni di recensioni e totalizza più di 90 contributi al minuto da parte degli utenti. Questa mole massiccia di dati, contiene al suo interno una base di verità che, in principio, può guidare il processo decisionale di una persona. Troppe informazioni rendono difficile ottenere una visione globale del giudizio dagli utenti e, di conseguenza, capire se è la scelta giusta da compiere. Lo scopo del nostro lavoro è aiutare gli utenti a compiere la scelta giusta con il minor sforzo. La Bounded Rationality Theory afferma che le persone in procinto di prendere una decisione cercano continuamente di trovare un bilanciamento tra la conoscenza richiesta, per poter prendere la decisione ottimale e lo sforzo richiesto a tale scopo. Quando vengono a mancare l’abilità o le risorse per arrivare alla soluzione ottima, si semplificano e riducono le soluzioni accettabili tendendo quindi verso una soluzione subottimale. Il nostro approccio consiste nel ridurre lo sforzo richiesto all’utente, riducendo la quantità di informazioni che esso deve assimilare, offrendogli solo una visione ristretta del parere di altre persone. Nel dettaglio, verranno presentati riassunti costruiti tramite le recensioni più significative scritte dagli utenti, con lo scopo di guidarli nella scelta di almeno una soluzione subottimale. L’ambito dei riassunti è un argomento di forte interesse, Summly, un servizio di riassunti di notizie online nato con lo scopo di semplificare come gli utenti leggono le notizie dai dispositivi mobili, è stato recentemente acquistato da Yahoo per circa 30 milioni di dollari. Rispetto a questo servizio, e ad altri studi accademici, il nostro studio ha uno scopo diverso: fornire un supporto al processo decisionale dell’utente. Adottando una tecnica innovativa che non si limita a riassumere un solo testo, ma effettua il riassunto di più testi, utilizzando una versione migliorata dell’algoritmo di Edmundson. All’utente verranno presentati due riassunti, uno contenente gli aspetti positivi, l’altro contenente gli aspetti negativi, al fine di offrire una visione più affidabile e bilanciata del parere degli utenti. Il lavoro è stato svolto nel dominio delle prenotazioni tavoli ai ristoranti e nel dominio dell’elettronica di consumo. Abbiamo condotto due diversi studi ed esperimenti con gli utenti; il primo, atto ad identificare quale sia la migliore tecnica per compiere riassunti automatici senza supervisione, verificando se l’approccio proposto risulti efficace. Il secondo, volto a provare la notevole riduzione di sforzo, richiesta all’utente, per portare a compimento una scelta e dimostrare che tale riduzione non dipende dal dominio scelto. Utilizzare tecniche riassuntive su domini misti e diversi dalle news, dove la forma scritta è formale e di conseguenza simile per tutte le fonti, o da altri domini specifici, come i testi medici, dove viene eseguita prima una fase di training del sistema, apre le porte a nuove problematiche. Abbiamo dovuto affrontare nuove sfide per poter creare un sistema di riassunti autonomo, non dipendente dal dominio di applicazione, gestendo slang, sarcasmo e linguaggio informale.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
2015_12_Guarnerio_Gusmeroli.pdf

non accessibile

Descrizione: Thesis
Dimensione 8.93 MB
Formato Adobe PDF
8.93 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/115761