One of the most worrying issues of our age is the spread of online misinformation. This problem is affecting our society heavily, transforming political discussion into a relentless battle between opposing sides. Not only that, the diffusion of conspiracy theories makes it diffcult for governments to enforce unpopular, yet necessary, legislation, as shown during the ongoing Covid-19 pandemic. It would be naive to put all the blame on Facebook or Twitter, but it's undeniable that social networks have allowed fake news to prosper as never before. Many studies have been published on how to fight this phenomenon, in many cases exploiting new powerful tools coming from the field of Artificial Intelligence, sometimes showing promising results, but suffering from the limitations of dealing with such an elusive problem by using the classic "true" against "false" approach. In our thesis, we will propose a new taxonomy for online news content that goes beyond this binary division, showing the creation process of fastidiouscity, a working prototype capable of categorizing unknown texts according to this new classification. We will then investigate whether it is possible to automatically detect and factcheck claims in a given text, a necessary step when discussing the veracity of a document, demonstrating the efficacy of our approach through a crowdsourcing experiment. Moreover, we will show a new way of creating news datasets by scraping Reddit, setting up another crowdsourcing experiment to validate the quality of this strategy. Finally we will be performing several experiments on how to enhance the training performances of BERT, Google's new language representation model, proving that they can be boosted in a multitask environment, while they're not affected by the use of a multilingual dataset.

Uno dei temi più preoccupanti della nostra epoca è la diffusione di disinformazione. Questo problema sta fortemente influenzando la nostra società, trasformando il dibattito politico in una lotta senza fine fra opposti schieramenti. Non solo questo, la diffusione di teorie complottistiche rende difficile per i governi far rispettare leggi impopolari, ma tuttavia necessarie, come dimostrato nell’attuale pandemia di Covid-19. Sarebbe ingenuo dare la colpa esclusivamente a Facebook o Twitter, ma è innegabile che i social network abbiano permesso alle "fake news" di prosperare come mai prima d’ora. Molti studi sono stati pubblicati su come combattere questo fenomeno, spesso sfruttando i nuovi e potenti mezzi provenienti dal mondo dell’Intelligenza Artificiale, a volte mostrando risultati promettenti, ma sempre limitati dal dover affrontare un problema così elusivo usando il classico approccio “vero” contro “falso”. In questa tesi, proporremo una nuova tassonomia per i contenuti online che vada oltre questa divisione binaria, mostrando il processo di creazione di fastidiouscity, un prototipo funzionante capace di catalogare testi seguendo questa nuova classificazione. Approfondiremo poi se sia possibile automatizzare il processo di fact-checking, un passaggio necessario per valutare la veridicità di un documento, dimostrando l’efficacia del nostro approccio attraverso un esperimento di crowdsourcing. In seguito, mostreremo una nuova strategia per creare dataset di articoli giornalistici basati sull’estrazione di dati da Reddit, la cui qualità verrà confermata attraverso un ulteriore esperimento di crowdsourcing. Infine, eseguiremo vari esperimenti su come affinare le prestazioni di BERT, il nuovo modello di linguaggio sviluppato da Google, dimostrando che esse possono essere migliorate in un ambiente multitasking, non risentendo invece dell’utilizzo di dataset multilingue.

Automated techniques for identifying fake news and assisting fact checkers

Agresti, Stefano
2019/2020

Abstract

One of the most worrying issues of our age is the spread of online misinformation. This problem is affecting our society heavily, transforming political discussion into a relentless battle between opposing sides. Not only that, the diffusion of conspiracy theories makes it diffcult for governments to enforce unpopular, yet necessary, legislation, as shown during the ongoing Covid-19 pandemic. It would be naive to put all the blame on Facebook or Twitter, but it's undeniable that social networks have allowed fake news to prosper as never before. Many studies have been published on how to fight this phenomenon, in many cases exploiting new powerful tools coming from the field of Artificial Intelligence, sometimes showing promising results, but suffering from the limitations of dealing with such an elusive problem by using the classic "true" against "false" approach. In our thesis, we will propose a new taxonomy for online news content that goes beyond this binary division, showing the creation process of fastidiouscity, a working prototype capable of categorizing unknown texts according to this new classification. We will then investigate whether it is possible to automatically detect and factcheck claims in a given text, a necessary step when discussing the veracity of a document, demonstrating the efficacy of our approach through a crowdsourcing experiment. Moreover, we will show a new way of creating news datasets by scraping Reddit, setting up another crowdsourcing experiment to validate the quality of this strategy. Finally we will be performing several experiments on how to enhance the training performances of BERT, Google's new language representation model, proving that they can be boosted in a multitask environment, while they're not affected by the use of a multilingual dataset.
ING - Scuola di Ingegneria Industriale e dell'Informazione
15-dic-2020
2019/2020
Uno dei temi più preoccupanti della nostra epoca è la diffusione di disinformazione. Questo problema sta fortemente influenzando la nostra società, trasformando il dibattito politico in una lotta senza fine fra opposti schieramenti. Non solo questo, la diffusione di teorie complottistiche rende difficile per i governi far rispettare leggi impopolari, ma tuttavia necessarie, come dimostrato nell’attuale pandemia di Covid-19. Sarebbe ingenuo dare la colpa esclusivamente a Facebook o Twitter, ma è innegabile che i social network abbiano permesso alle "fake news" di prosperare come mai prima d’ora. Molti studi sono stati pubblicati su come combattere questo fenomeno, spesso sfruttando i nuovi e potenti mezzi provenienti dal mondo dell’Intelligenza Artificiale, a volte mostrando risultati promettenti, ma sempre limitati dal dover affrontare un problema così elusivo usando il classico approccio “vero” contro “falso”. In questa tesi, proporremo una nuova tassonomia per i contenuti online che vada oltre questa divisione binaria, mostrando il processo di creazione di fastidiouscity, un prototipo funzionante capace di catalogare testi seguendo questa nuova classificazione. Approfondiremo poi se sia possibile automatizzare il processo di fact-checking, un passaggio necessario per valutare la veridicità di un documento, dimostrando l’efficacia del nostro approccio attraverso un esperimento di crowdsourcing. In seguito, mostreremo una nuova strategia per creare dataset di articoli giornalistici basati sull’estrazione di dati da Reddit, la cui qualità verrà confermata attraverso un ulteriore esperimento di crowdsourcing. Infine, eseguiremo vari esperimenti su come affinare le prestazioni di BERT, il nuovo modello di linguaggio sviluppato da Google, dimostrando che esse possono essere migliorate in un ambiente multitasking, non risentendo invece dell’utilizzo di dataset multilingue.
File allegati
File Dimensione Formato  
Thesis_Stefano_Agresti.pdf

accessibile in internet per tutti

Descrizione: Master's Degree Thesis Stefano Agresti
Dimensione 6.79 MB
Formato Adobe PDF
6.79 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/169460