Implementation of Existing Hate Speech Models in Machine Learning

The increasing frequency of hate speech in online communications poses a significant challenge, necessitating effective detection methods. In this study, we investigate the efficacy of two distinct natural language processing (NLP) models, HateBERT and ChatGPT 3.5, in identifying hate speech. HateBERT is a variant of BERT (Bidirectional Encoder Representations from Transformers), specifically fine-tuned for hate speech detection, while ChatGPT 3.5 represents a more general approach in language processing. Our research involved a comparative analysis of these models using two datasets: a dynamically generated dataset and a real-world dataset derived from Twitter. The dynamically generated dataset was developed using a human-and-model-in-the-loop process, presenting a novel approach in enhancing hate speech detection models. This dataset includes a balanced mix of hate and non-hate content, with detailed annotations on the specific types and targets of hate speech. The Twitter dataset, on the other hand, provided organic examples of hate speech as it manifests on social media platforms, thus reflecting the complexity of natural, unstructured environments. The performance of HateBERT and ChatGPT 3.5 was assessed using standard metrics like F1-score, accuracy, precision, and recall. Our findings indicate significant differences in the ability of these models to detect hate speech, with each displaying unique strengths and weaknesses. HateBERT, being a specialized model, showed focused efficiency in identifying hate speech. In contrast, ChatGPT 3.5, while versatile, demonstrated limitations in the fine-tuned sensitivity to specific types of hate speech. This thesis contributes to the understanding of AI model performance in the detection of hate speech, highlighting the trade-offs between specialized and general models in practical applications. The results have important implications for the application of these models in real-world scenarios, particularly in business communication contexts such as email engines and chatbots.

La crescente frequenza dell’incitamento all’odio nelle comunicazioni online rappresenta una sfida significativa, che richiede metodi di rilevamento efficaci. In questo studio, indaghiamo l’efficacia di due distinti modelli di elaborazione del linguaggio naturale (NLP), HateBERT e ChatGPT 3.5, nell’identificazione dei discorsi di odio. HateBERT è una variante di BERT (Bidirection Encoder Representations from Transformers), specificatamente ottimizzata per il rilevamento dell'incitamento all'odio, mentre ChatGPT 3.5 rappresenta un approccio più generale all'elaborazione del linguaggio. La nostra ricerca ha comportato un’analisi comparativa di questi modelli utilizzando due set di dati: un set di dati generato dinamicamente e un set di dati del mondo reale derivato da Twitter. Il set di dati generato dinamicamente è stato sviluppato utilizzando un processo human-and-model-in-the-loop, presentando un nuovo approccio per migliorare i modelli di rilevamento dell’incitamento all’odio. Questo set di dati include un mix equilibrato di contenuti che incitano all'odio e che non incitano all'odio, con annotazioni dettagliate sui tipi e sugli obiettivi specifici dell'incitamento all'odio. Il set di dati di Twitter, d’altro canto, ha fornito esempi organici di incitamento all’odio così come si manifesta sulle piattaforme dei social media, riflettendo così la complessità degli ambienti naturali e non strutturati. Le prestazioni di HateBERT e ChatGPT 3.5 sono state valutate utilizzando metriche standard come punteggio F1, accuratezza, precisione e ricordo. I nostri risultati indicano differenze significative nella capacità di questi modelli di rilevare i discorsi di odio, e ciascuno di essi mostra punti di forza e di debolezza unici. HateBERT, essendo un modello specializzato, ha mostrato un’efficienza mirata nell’individuare i discorsi di incitamento all’odio. Al contrario, ChatGPT 3.5, sebbene versatile, ha dimostrato limiti nella sensibilità ottimizzata a tipi specifici di incitamento all’odio. Questa tesi contribuisce alla comprensione delle prestazioni del modello di intelligenza artificiale nel rilevamento dell'incitamento all'odio, evidenziando i compromessi tra modelli specializzati e generali nelle applicazioni pratiche. I risultati hanno importanti implicazioni per l’applicazione di questi modelli in scenari del mondo reale, in particolare in contesti di comunicazione aziendale come motori di posta elettronica e chatbot.