Satire has been present in the history of mankind since the beginning, in various forms, whereas the presence of Machine Learning in our lives is more recent, but equally challenging: the collection and availability of data and their analysis have become more and more pervasive in everyday life, having a huge impact on what we see and read, just as satire. The idea behind this work was to link these two aspects and to see if BERT - one of the most complex neural network models that have been developed and implemented in recent years - could be trained to tell apart satirical content from not-satire. This experiment could be useful to stop the diffusion of misinformation and to help people interpret the perception that others write about them in various texts. The novelty in our work, with respect to the various studies that are already present on the academic scene, is represented by various aspects. First, in the training set we used as many textual sources as possible, so to prevent the model from learning the style of a single source, but not only this. We also used a lot of different languages, in order to learn the differences in style and languages across some cultures. Second, this is one of the first studies to perform the task of distinguishing between REAL, SATIRICAL and FAKE content. Last, but not least, we used gradient-based explainability on a model like BERT - and this approach had been rarely done in the past - and then we used the results to help us in identifying patterns and characteristics in the predictions.

La satira è stata presente nella storia dell'umanità fin dall'inizio, in varie forme, mentre la presenza del Machine Learning nelle nostre vite è più recente, ma ugualmente impegnativa: la raccolta e disponibilità dei dati e la loro analisi sono diventati sempre più pervasivi nella vita di tutti i giorni, con un impatto enorme su quello che vediamo e leggiamo, proprio come la satira. L'idea alla base di questo lavoro era quella di collegare questi due aspetti e vedere se BERT - uno dei modelli di rete neurale più complessi che sono stati sviluppati e implementati negli ultimi anni - potesse essere addestrato a distinguere il contenuto satirico dalla non satira. Questo esperimento potrebbe essere utile per fermare la diffusione della disinformazione e per aiutare le persone a interpretare la percezione che gli altri scrivono su di loro nei vari testi. La novità nel nostro lavoro, rispetto ai vari studi già presenti sulla scena accademica, è rappresentata da vari aspetti. Innanzitutto, nel training set abbiamo utilizzato quante più fonti testuali possibili, in modo da evitare che il modello apprendesse lo stile di una singola di esse, ma non solo. Abbiamo anche usato molte lingue diverse, per imparare le differenze di stile e lingue tra alcune culture. In secondo luogo, questo è uno dei primi studi a svolgere il compito di distinguere tra contenuti REALI, SATIRICI e FALSI. Ultimo, ma non per importanza, abbiamo usato un metodo di explainability basato sul gradiente su un modello come BERT - e questo approccio era stato usato raramente in passato - e poi abbiamo usato i risultati per aiutarci a identificare modelli e caratteristiche nelle previsioni.

Satire and fake news detection

Giovannacci, Anna
2020/2021

Abstract

Satire has been present in the history of mankind since the beginning, in various forms, whereas the presence of Machine Learning in our lives is more recent, but equally challenging: the collection and availability of data and their analysis have become more and more pervasive in everyday life, having a huge impact on what we see and read, just as satire. The idea behind this work was to link these two aspects and to see if BERT - one of the most complex neural network models that have been developed and implemented in recent years - could be trained to tell apart satirical content from not-satire. This experiment could be useful to stop the diffusion of misinformation and to help people interpret the perception that others write about them in various texts. The novelty in our work, with respect to the various studies that are already present on the academic scene, is represented by various aspects. First, in the training set we used as many textual sources as possible, so to prevent the model from learning the style of a single source, but not only this. We also used a lot of different languages, in order to learn the differences in style and languages across some cultures. Second, this is one of the first studies to perform the task of distinguishing between REAL, SATIRICAL and FAKE content. Last, but not least, we used gradient-based explainability on a model like BERT - and this approach had been rarely done in the past - and then we used the results to help us in identifying patterns and characteristics in the predictions.
ING - Scuola di Ingegneria Industriale e dell'Informazione
21-dic-2021
2020/2021
La satira è stata presente nella storia dell'umanità fin dall'inizio, in varie forme, mentre la presenza del Machine Learning nelle nostre vite è più recente, ma ugualmente impegnativa: la raccolta e disponibilità dei dati e la loro analisi sono diventati sempre più pervasivi nella vita di tutti i giorni, con un impatto enorme su quello che vediamo e leggiamo, proprio come la satira. L'idea alla base di questo lavoro era quella di collegare questi due aspetti e vedere se BERT - uno dei modelli di rete neurale più complessi che sono stati sviluppati e implementati negli ultimi anni - potesse essere addestrato a distinguere il contenuto satirico dalla non satira. Questo esperimento potrebbe essere utile per fermare la diffusione della disinformazione e per aiutare le persone a interpretare la percezione che gli altri scrivono su di loro nei vari testi. La novità nel nostro lavoro, rispetto ai vari studi già presenti sulla scena accademica, è rappresentata da vari aspetti. Innanzitutto, nel training set abbiamo utilizzato quante più fonti testuali possibili, in modo da evitare che il modello apprendesse lo stile di una singola di esse, ma non solo. Abbiamo anche usato molte lingue diverse, per imparare le differenze di stile e lingue tra alcune culture. In secondo luogo, questo è uno dei primi studi a svolgere il compito di distinguere tra contenuti REALI, SATIRICI e FALSI. Ultimo, ma non per importanza, abbiamo usato un metodo di explainability basato sul gradiente su un modello come BERT - e questo approccio era stato usato raramente in passato - e poi abbiamo usato i risultati per aiutarci a identificare modelli e caratteristiche nelle previsioni.
File allegati
File Dimensione Formato  
2021_12_Giovannacci.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Master degree Thesis
Dimensione 2.94 MB
Formato Adobe PDF
2.94 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/182649