The proliferation of hate speech is a growing challenge for social media platforms, as toxic online comments can have dangerous consequences also in real life. There is a need for tools that can automatically and reliably detect hateful comments, and deep learning models have proven effective in solving this issue. However, these models have been shown to have unintended bias against some categories of people. Specifically, they may classify comments that reference certain frequently attacked identities (such as gay, trans, or Muslim) as toxic even if the comments themselves are actually not toxic (e.g. “I am Muslim”). To address this bias, previous authors introduced an Entropy-based Attention Regularization (EAR) method which, when applied to BERT, has been shown to reduce its unintended bias. In this study, the EAR method was applied not only to BERT, but also to XLNet. The investigation involved the comparison of four models: BERT, BERT+EAR, XLNet, and XLNet+EAR. Several experiments were performed, and the associated code is available on GitHub. The classification performance of these models was measured using the F1-score on a public data set containing comments collected from Wikipedia forums. While their unintended bias was evaluated by employing AUC-based metrics on a synthetic data set consisting of 50 identities grouped into four macro categories: Gender & Sexual orientation, Ethnicity, Religion, and Age & Physical disability. The results of the AUC-based metrics proved that EAR performs well on both BERT and XLNet, successfully reducing their unintended bias towards the 50 identity terms considered in the experiments. Conversely, the F1-score results demonstrated a negative impact of EAR on the classification performance of both BERT and XLNet.

La proliferazione dei discorsi d’odio è una sfida crescente per le piattaforme di social media, poiché i commenti tossici online possono avere conseguenze pericolose anche nella vita reale. Da ciò, la necessità di strumenti in grado di rilevare automaticamente e in modo affidabile i commenti d’odio. I modelli di deep learning si sono dimostrati efficaci nel risolvere questo problema, tuttavia, è stato dimostrato che essi hanno pregiudizi involontari nei confronti di alcune categorie di persone. In particolare, possono classificare come tossici i commenti che fanno riferimento ad alcune identità frequentemente attaccate nei discorsi online (ad esempio: gay, trans o musulmani), anche se in realtà tali commenti non sono tossici, come ad esempio la frase “Io sono musulmano”. Per ovviare a questi pregiudizi involontari, precedenti autori hanno introdotto un metodo di regolarizzazione dell’attenzione basato sull’entropia (detto EAR) che, applicato a BERT, ha dimostrato di ridurre il suo bias involontario. In questa ricerca, il metodo EAR è stato applicato non solo a BERT, ma anche a XLNet, in particolare sono stati confrontati quattro modelli: BERT, BERT+EAR, XLNet e XLNet+EAR. Il codice associato ai diversi esperimenti è disponibile su GitHub. La capacità di tali modelli nel classificare correttamente i commenti è stata misurata utilizzando la metrica F1-score su un insieme di dati pubblici contenente commenti raccolti dai forum di Wikipedia, mentre il pregiudizio involontario dei modelli è stato valutato usando la metrica AUC su un insieme di dati sintetico composto da 50 identità raggruppate in quattro macro categorie: Genere & Orientamento sessuale, Etnia, Religione, Età & Disabilità fisica. I risultati sulla metrica AUC hanno dimostrato che EAR ha effetti positivi sia su BERT che su XLNet, riducendo il loro bias involontario verso le 50 identità considerate negli esperimenti. Al contrario, i risultati sulla metrica F1-score hanno dimostrato che EAR ha un impatto negativo sulle capacità di classificazione di BERT e XLNet.

Mitigating Unintended Bias in Toxic Comment Detection using Entropy-based Attention Regularization

CAMEROTA, FABIO
2022/2023

Abstract

The proliferation of hate speech is a growing challenge for social media platforms, as toxic online comments can have dangerous consequences also in real life. There is a need for tools that can automatically and reliably detect hateful comments, and deep learning models have proven effective in solving this issue. However, these models have been shown to have unintended bias against some categories of people. Specifically, they may classify comments that reference certain frequently attacked identities (such as gay, trans, or Muslim) as toxic even if the comments themselves are actually not toxic (e.g. “I am Muslim”). To address this bias, previous authors introduced an Entropy-based Attention Regularization (EAR) method which, when applied to BERT, has been shown to reduce its unintended bias. In this study, the EAR method was applied not only to BERT, but also to XLNet. The investigation involved the comparison of four models: BERT, BERT+EAR, XLNet, and XLNet+EAR. Several experiments were performed, and the associated code is available on GitHub. The classification performance of these models was measured using the F1-score on a public data set containing comments collected from Wikipedia forums. While their unintended bias was evaluated by employing AUC-based metrics on a synthetic data set consisting of 50 identities grouped into four macro categories: Gender & Sexual orientation, Ethnicity, Religion, and Age & Physical disability. The results of the AUC-based metrics proved that EAR performs well on both BERT and XLNet, successfully reducing their unintended bias towards the 50 identity terms considered in the experiments. Conversely, the F1-score results demonstrated a negative impact of EAR on the classification performance of both BERT and XLNet.
ING - Scuola di Ingegneria Industriale e dell'Informazione
5-ott-2023
2022/2023
La proliferazione dei discorsi d’odio è una sfida crescente per le piattaforme di social media, poiché i commenti tossici online possono avere conseguenze pericolose anche nella vita reale. Da ciò, la necessità di strumenti in grado di rilevare automaticamente e in modo affidabile i commenti d’odio. I modelli di deep learning si sono dimostrati efficaci nel risolvere questo problema, tuttavia, è stato dimostrato che essi hanno pregiudizi involontari nei confronti di alcune categorie di persone. In particolare, possono classificare come tossici i commenti che fanno riferimento ad alcune identità frequentemente attaccate nei discorsi online (ad esempio: gay, trans o musulmani), anche se in realtà tali commenti non sono tossici, come ad esempio la frase “Io sono musulmano”. Per ovviare a questi pregiudizi involontari, precedenti autori hanno introdotto un metodo di regolarizzazione dell’attenzione basato sull’entropia (detto EAR) che, applicato a BERT, ha dimostrato di ridurre il suo bias involontario. In questa ricerca, il metodo EAR è stato applicato non solo a BERT, ma anche a XLNet, in particolare sono stati confrontati quattro modelli: BERT, BERT+EAR, XLNet e XLNet+EAR. Il codice associato ai diversi esperimenti è disponibile su GitHub. La capacità di tali modelli nel classificare correttamente i commenti è stata misurata utilizzando la metrica F1-score su un insieme di dati pubblici contenente commenti raccolti dai forum di Wikipedia, mentre il pregiudizio involontario dei modelli è stato valutato usando la metrica AUC su un insieme di dati sintetico composto da 50 identità raggruppate in quattro macro categorie: Genere & Orientamento sessuale, Etnia, Religione, Età & Disabilità fisica. I risultati sulla metrica AUC hanno dimostrato che EAR ha effetti positivi sia su BERT che su XLNet, riducendo il loro bias involontario verso le 50 identità considerate negli esperimenti. Al contrario, i risultati sulla metrica F1-score hanno dimostrato che EAR ha un impatto negativo sulle capacità di classificazione di BERT e XLNet.
File allegati
File Dimensione Formato  
CAMEROTA_THESIS_POLIMI.pdf

accessibile in internet per tutti

Descrizione: Thesis
Dimensione 4.44 MB
Formato Adobe PDF
4.44 MB Adobe PDF Visualizza/Apri
CAMEROTA_Executive_Summary_POLIMI.pdf

accessibile in internet per tutti

Descrizione: Executive summary
Dimensione 999.06 kB
Formato Adobe PDF
999.06 kB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/211114