In today's digital age, assistive technologies are an important tool to allow equal access to information. Web interfaces that rely heavily on visual information create a large information gap for visually impaired users. ConWeb (Conversational Web Browser) is a framework that allows interactive web browsing by automatically generating a dialogue with the user using the information contained in the Web page. During user studies, interest was shown in the possibility of obtaining summaries of Web pages. Advances in neural network technology have greatly improved the quality of automatic text summarization. However, it is difficult to automatically evaluate abstractive summaries generated by neural network models, as traditional evaluation metrics cannot capture their semantic coherence. In this study, we aimed to select a generative model to obtain high-quality automatic summaries for ConWeb and to evaluate various metrics used in general for the automatic evaluation of summaries. Specifically, we generated summaries of 76 Italian articles using four generative models: mbart-summarization-mlsum, mbart-summarization-ilpost, BART, and GPT-3.5. We performed an evaluation analysis using 8 metrics (ROUGE-1, ROUGE-2, ROUGE-L, BERTScore, BLEU, BLANC, chrF, and METEOR) and a crowdsourced human evaluation. Analyzing the results, the quality of the summaries generated by GPT-3.5 was shown to be significantly high according to human evaluation. A significant discrepancy emerged when comparing human evaluation to automatic metrics, further underscored by the weak correlation observed between the two sets of results. We concluded that traditional automatic metrics cannot adequately evaluate abstractive summaries generated by Large Language Models and that the best model among those considered for our goal is GPT-3.5.
Nell'odierna era digitale, le tecnologie assistive risultano essere uno strumento importante per permettere un accesso equo all'informazione. Le pagine Web che fanno molto affidamento sulle informazioni visive creano un ampio divario informativo per gli utenti ipovedenti. ConWeb (Conversational Web Browser) è un framework che consente la navigazione web interattiva tramite la generazione automatica di un dialogo con l'utente utilizzando le informazioni contenute nella pagina Web. Durante gli studi con gli utenti, è stato mostrato interesse verso la possibilità di ottenere dei riassunti delle pagine Web. Il progresso nella tecnologia nelle reti neurali ha migliorato notevolmente la qualità dei riassunti automatici. Tuttavia è difficile valutare automaticamente i riassunti astrattivi generati dai modelli di reti neurali, poiché le metriche di valutazione tradizionali non sono in grado di catturarne la coerenza semantica. In questo studio, abbiamo mirato a selezionare un modello generativo per ottenere riassunti automatici di alta qualità per ConWeb e a valutare varie metriche utilizzate in generale per la valutazione automatica di riassunti. Nello specifico, abbiamo generato riassunti di 76 articoli Italiani utilizzando quattro modelli generativi: mbart-summarization-mlsum, mbart-summarization-ilpost, BART e GPT-3.5. Abbiamo effettuato un'analisi di valutazione utilizzando 8 metriche (ROUGE-1, ROUGE-2, ROUGE-L, BERTScore, BLEU, BLANC, chrF e METEOR) e una valutazione umana tramite crowdsourcing. Analizzando i risultati, la qualità dei riassunti generati da GPT-3.5 si è dimostrata significativamente elevata secondo la valutazione umana. Una discrepanza significativa è emersa confrontando la valutazione umana con le metriche automatiche, ulteriormente sottolineata dalla debole correlazione osservata tra le due valutazioni. Abbiamo concluso che le tradizionali metriche automatiche non possono valutare adeguatamente i riassunti astrattivi generati da modelli generativi di linguaggio di enormi dimensioni e che il miglior modello tra quelli presi in considerazione per il nostro obbiettivo è GPT-3.5.
Evaluation of metrics for neural-network-based summarization
AWAD, YASMIN
2022/2023
Abstract
In today's digital age, assistive technologies are an important tool to allow equal access to information. Web interfaces that rely heavily on visual information create a large information gap for visually impaired users. ConWeb (Conversational Web Browser) is a framework that allows interactive web browsing by automatically generating a dialogue with the user using the information contained in the Web page. During user studies, interest was shown in the possibility of obtaining summaries of Web pages. Advances in neural network technology have greatly improved the quality of automatic text summarization. However, it is difficult to automatically evaluate abstractive summaries generated by neural network models, as traditional evaluation metrics cannot capture their semantic coherence. In this study, we aimed to select a generative model to obtain high-quality automatic summaries for ConWeb and to evaluate various metrics used in general for the automatic evaluation of summaries. Specifically, we generated summaries of 76 Italian articles using four generative models: mbart-summarization-mlsum, mbart-summarization-ilpost, BART, and GPT-3.5. We performed an evaluation analysis using 8 metrics (ROUGE-1, ROUGE-2, ROUGE-L, BERTScore, BLEU, BLANC, chrF, and METEOR) and a crowdsourced human evaluation. Analyzing the results, the quality of the summaries generated by GPT-3.5 was shown to be significantly high according to human evaluation. A significant discrepancy emerged when comparing human evaluation to automatic metrics, further underscored by the weak correlation observed between the two sets of results. We concluded that traditional automatic metrics cannot adequately evaluate abstractive summaries generated by Large Language Models and that the best model among those considered for our goal is GPT-3.5.File | Dimensione | Formato | |
---|---|---|---|
2024_04_Awad_Tesi_01.pdf
accessibile in internet per tutti
Descrizione: Testo della tesi
Dimensione
2.47 MB
Formato
Adobe PDF
|
2.47 MB | Adobe PDF | Visualizza/Apri |
2024_04_Awad_Executive Summary_02.pdf
accessibile in internet per tutti
Descrizione: Testo dell'executive summary
Dimensione
902.63 kB
Formato
Adobe PDF
|
902.63 kB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/218987