With the spread of social media platforms, hate speech has also become more prevalent. Counterspeech represent a possible solution to mitigate this issue. However, its effectiveness is constrained by the overwhelming volume of hate speech requiring responses. This study investigates the possibility of using large language models (LLMs) as an alternative to generate counterspeech. We analyze the outputs of six recent open-source models when prompted to generate either a general counterspeech or a counterspeech of a specified type. Our evaluation considers multiple aspects, including syntactic correctness, relevance to the hate speech, semantic similarity with effective counterspeech, toxicity, and diversity, as well as the accuracy in addressing the correct social or ethnic group. Additionally, we examine the models’ adherence to prompt requirements, such as character limits and specified counterspeech types. For both counterspeech generation and two datasets have been used: MultiTarget-CONAN and IntentCONANv2. Results indicate that these models show potential for effective counterspeech generation, as they demonstrated strong syntactic correctness, high relevance, semantic similarity, and acceptable toxicity levels. However, certain areas for improvement remain, as some models exhibit limited diversity and inconsistencies in meeting both the specified prompt conditions.

Con la diffusione dei social media, i messaggi d’odio hanno registrato un aumento significativo. Per contrastare questo problema, è stato proposto l’utilizzo di messaggi di contro-risposta, pensati con l’intenzione di far cambiare l’opinione degli utenti che inviano i messaggi d’odio. Tuttavia, la sua efficacia è limitata dal volume elevato dei messaggi d’odio che richiedono una risposta. Questo lavoro esplora la possibilità di impiegare modelli di linguaggio di grandi dimensioni (LLM) come alternativa per la generazione automatica delle contro-risposte. In particolare vengono analizzati i risultati di sei recenti modelli open-source, incaricati di generare contro-risposte, sia generiche che specifiche per categorie (informativa, interrogativa, denuncia e positiva). La nostra valutazione prende in considerazione diversi aspetti, tra cui la correttezza sintattica, la rilevanza rispetto al messaggio d’odio, la somiglianza semantica con una contro-risposta efficace, la tossicità, la diversità, nonché l’accuratezza nel fare riferimento al gruppo sociale o etnico pertinente. Inoltre, esaminiamo l’aderenza dei modelli alle condizioni aggiuntive fornite nelle richieste, come i limiti sulla lunghezza del testo e i tipi di contro-risposta specificati. Per la generazione delle contro-risposte e la loro valutazione sono stati utilizzati due set di dati: MultiTarget-CONAN e IntentCONANv2. I risultati evidenziano il potenziale dei modelli analizzati nella generazione di contro-risposte efficaci, mostrando una buona correttezza sintattica, elevata rilevanza, buona somiglianza semantica e livelli di tossicità accettabili. Tuttavia, persistono alcune aree di miglioramento, come modelli la limitata diversità di alcuni modelli e alcune incongruenze nel condizioni specificate nelle richieste.

Evaluating large language models for counterspeech generation

SPINA, GIUSEPPE
2023/2024

Abstract

With the spread of social media platforms, hate speech has also become more prevalent. Counterspeech represent a possible solution to mitigate this issue. However, its effectiveness is constrained by the overwhelming volume of hate speech requiring responses. This study investigates the possibility of using large language models (LLMs) as an alternative to generate counterspeech. We analyze the outputs of six recent open-source models when prompted to generate either a general counterspeech or a counterspeech of a specified type. Our evaluation considers multiple aspects, including syntactic correctness, relevance to the hate speech, semantic similarity with effective counterspeech, toxicity, and diversity, as well as the accuracy in addressing the correct social or ethnic group. Additionally, we examine the models’ adherence to prompt requirements, such as character limits and specified counterspeech types. For both counterspeech generation and two datasets have been used: MultiTarget-CONAN and IntentCONANv2. Results indicate that these models show potential for effective counterspeech generation, as they demonstrated strong syntactic correctness, high relevance, semantic similarity, and acceptable toxicity levels. However, certain areas for improvement remain, as some models exhibit limited diversity and inconsistencies in meeting both the specified prompt conditions.
BRAMBILLA, MARCO
ING - Scuola di Ingegneria Industriale e dell'Informazione
11-dic-2024
2023/2024
Con la diffusione dei social media, i messaggi d’odio hanno registrato un aumento significativo. Per contrastare questo problema, è stato proposto l’utilizzo di messaggi di contro-risposta, pensati con l’intenzione di far cambiare l’opinione degli utenti che inviano i messaggi d’odio. Tuttavia, la sua efficacia è limitata dal volume elevato dei messaggi d’odio che richiedono una risposta. Questo lavoro esplora la possibilità di impiegare modelli di linguaggio di grandi dimensioni (LLM) come alternativa per la generazione automatica delle contro-risposte. In particolare vengono analizzati i risultati di sei recenti modelli open-source, incaricati di generare contro-risposte, sia generiche che specifiche per categorie (informativa, interrogativa, denuncia e positiva). La nostra valutazione prende in considerazione diversi aspetti, tra cui la correttezza sintattica, la rilevanza rispetto al messaggio d’odio, la somiglianza semantica con una contro-risposta efficace, la tossicità, la diversità, nonché l’accuratezza nel fare riferimento al gruppo sociale o etnico pertinente. Inoltre, esaminiamo l’aderenza dei modelli alle condizioni aggiuntive fornite nelle richieste, come i limiti sulla lunghezza del testo e i tipi di contro-risposta specificati. Per la generazione delle contro-risposte e la loro valutazione sono stati utilizzati due set di dati: MultiTarget-CONAN e IntentCONANv2. I risultati evidenziano il potenziale dei modelli analizzati nella generazione di contro-risposte efficaci, mostrando una buona correttezza sintattica, elevata rilevanza, buona somiglianza semantica e livelli di tossicità accettabili. Tuttavia, persistono alcune aree di miglioramento, come modelli la limitata diversità di alcuni modelli e alcune incongruenze nel condizioni specificate nelle richieste.
File allegati
File Dimensione Formato  
2024_12_Spina_Tesi_01.pdf

accessibile in internet per tutti

Descrizione: Testo della tesi
Dimensione 90.16 MB
Formato Adobe PDF
90.16 MB Adobe PDF Visualizza/Apri
2024_12_Spina_Executive Summary_02.pdf

accessibile in internet per tutti

Descrizione: Testo dell'executive summary
Dimensione 2.25 MB
Formato Adobe PDF
2.25 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/231101