This thesis addresses the critical issue of evaluating the reliability of online information. The Web, a primary information source, often lacks accuracy and consistency, especially within participatory platforms such as blogs and forums. This research develops a system that leverages Web scraping and truth discovery algorithms to gather, analyse, and verify information from multiple sources. The system assesses the trustworthiness of information using data quality dimensions and credibility assessment criteria, providing users with a reliable tool for data extraction. In details, the developed methodology combines Web scraping techniques with two specific truth discovery algorithms (the 2-Estimates Algorithm and Sum-Fact Finder) to assess the reliability of collected data. Additionally, data cross-verification is conducted with Wikidata to enhance the accuracy. The system is implemented through an interactive Web application, allowing users to query, filter, and view trustworthy sources and data. The approach has been validated by considering the hiking case study. The variability of accuracy and consistency in participatory platforms presents significant challenges for users. This is especially true when planning mountain excursions based on reliable data. Results demonstrate that this tool identifies reliable data, mitigating the risks associated with conflicting online information and improving the overall quality of accessible hiking resources.

Questa tesi affronta la questione critica della valutazione dell'affidabilità delle informazioni online. Il Web, fonte primaria di informazioni, spesso manca di accuratezza e coerenza, soprattutto all'interno di piattaforme partecipative come blog e forum. Questa ricerca sviluppa un sistema che sfrutta gli algoritmi di Web scraping e di truth discovery per raccogliere, analizzare e verificare le informazioni provenienti da più fonti. Il sistema valuta l'attendibilità delle informazioni utilizzando dimensioni di qualità dei dati e criteri di valutazione della credibilità, fornendo agli utenti uno strumento affidabile per l'estrazione dei dati. In dettaglio, la metodologia sviluppata combina tecniche di Web scraping con due algoritmi specifici di scoperta della verità (l'algoritmo 2-Estimates e il Sum-Fact Finder) per valutare l'affidabilità dei dati raccolti. Inoltre, viene condotta una verifica incrociata dei dati con Wikidata per migliorarne l'accuratezza. Il sistema è implementato attraverso un'applicazione Web interattiva, che consente agli utenti di interrogare, filtrare e visualizzare fonti e dati affidabili. L'approccio è stato convalidato considerando il caso di studio dell'escursionismo. La variabilità dell'accuratezza e della coerenza delle piattaforme partecipative rappresenta una sfida significativa per gli utenti. Ciò è particolarmente vero quando si pianificano escursioni in montagna sulla base di dati affidabili. I risultati dimostrano che questo strumento identifica i dati affidabili, attenuando i rischi associati alle informazioni online contrastanti e migliorando la qualità complessiva delle risorse escursionistiche accessibili.

Evaluating the reliability of web-based information

ALBERTI, CAMILLA SOPHIA
2023/2024

Abstract

This thesis addresses the critical issue of evaluating the reliability of online information. The Web, a primary information source, often lacks accuracy and consistency, especially within participatory platforms such as blogs and forums. This research develops a system that leverages Web scraping and truth discovery algorithms to gather, analyse, and verify information from multiple sources. The system assesses the trustworthiness of information using data quality dimensions and credibility assessment criteria, providing users with a reliable tool for data extraction. In details, the developed methodology combines Web scraping techniques with two specific truth discovery algorithms (the 2-Estimates Algorithm and Sum-Fact Finder) to assess the reliability of collected data. Additionally, data cross-verification is conducted with Wikidata to enhance the accuracy. The system is implemented through an interactive Web application, allowing users to query, filter, and view trustworthy sources and data. The approach has been validated by considering the hiking case study. The variability of accuracy and consistency in participatory platforms presents significant challenges for users. This is especially true when planning mountain excursions based on reliable data. Results demonstrate that this tool identifies reliable data, mitigating the risks associated with conflicting online information and improving the overall quality of accessible hiking resources.
ING - Scuola di Ingegneria Industriale e dell'Informazione
11-dic-2024
2023/2024
Questa tesi affronta la questione critica della valutazione dell'affidabilità delle informazioni online. Il Web, fonte primaria di informazioni, spesso manca di accuratezza e coerenza, soprattutto all'interno di piattaforme partecipative come blog e forum. Questa ricerca sviluppa un sistema che sfrutta gli algoritmi di Web scraping e di truth discovery per raccogliere, analizzare e verificare le informazioni provenienti da più fonti. Il sistema valuta l'attendibilità delle informazioni utilizzando dimensioni di qualità dei dati e criteri di valutazione della credibilità, fornendo agli utenti uno strumento affidabile per l'estrazione dei dati. In dettaglio, la metodologia sviluppata combina tecniche di Web scraping con due algoritmi specifici di scoperta della verità (l'algoritmo 2-Estimates e il Sum-Fact Finder) per valutare l'affidabilità dei dati raccolti. Inoltre, viene condotta una verifica incrociata dei dati con Wikidata per migliorarne l'accuratezza. Il sistema è implementato attraverso un'applicazione Web interattiva, che consente agli utenti di interrogare, filtrare e visualizzare fonti e dati affidabili. L'approccio è stato convalidato considerando il caso di studio dell'escursionismo. La variabilità dell'accuratezza e della coerenza delle piattaforme partecipative rappresenta una sfida significativa per gli utenti. Ciò è particolarmente vero quando si pianificano escursioni in montagna sulla base di dati affidabili. I risultati dimostrano che questo strumento identifica i dati affidabili, attenuando i rischi associati alle informazioni online contrastanti e migliorando la qualità complessiva delle risorse escursionistiche accessibili.
File allegati
File Dimensione Formato  
2024_12_Alberti_Executive Summary.pdf

accessibile in internet solo dagli utenti autorizzati

Dimensione 543.63 kB
Formato Adobe PDF
543.63 kB Adobe PDF   Visualizza/Apri
2024_12_Alberti_Tesi.pdf

accessibile in internet solo dagli utenti autorizzati

Dimensione 53.88 MB
Formato Adobe PDF
53.88 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/230936