Every day many people experience toxic and uncivil behavior during online interactions on social media platforms. To solve this issue, platforms increasingly rely on automated content moderation systems to detect violations and enforce community guidelines. As these AI-based systems become critical to successful moderation, it is crucial to evaluate their robustness and understand their limitations. Previous research on adversarial machine learning for toxicity detection has focused on black-box scenarios. In this work, we extend the analysis to grey-box scenarios, exploring the capabilities and knowledge that adversaries can leverage to improve existing attacks. We establish benchmark evasion performances for black-box text classification attacks against deep learning models for toxicity detection. In addition, we adapt an image-based attack to text data, minimizing the number of queries flagged as toxic. We then show three methods to enhance the stealthiness of existing attacks by exploiting additional knowledge about the target model available to the adversary in grey-box scenarios. Finally, we discuss heuristics to make these developed attacks viable in real-world scenarios.
Ogni giorno molte persone sperimentano comportamenti tossici e incivili durante le interazioni online sulle piattaforme di social media. Per risolvere questo problema, le piattaforme si affidano sempre più a sistemi automatizzati di moderazione dei contenuti per rilevare violazioni e far rispettare le linee guida della comunità. Poiché questi sistemi basati sull’intelligenza artificiale diventano critici per una moderazione efficace, è cruciale valutarne la robustezza e capirne i limiti. Le ricerche precedenti sull’apprendimento automatico avversario per il rilevamento della tossicità si sono concentrate su scenari a scatola nera. In questo lavoro, estendiamo l’analisi agli scenari a scatola grigia, esplorando le capacità e le conoscenze che gli avversari possono sfruttare per migliorare gli attacchi esistenti. Stabiliamo degli standard di riferimento per le prestazioni di evasione per attacchi di classificazione del testo a scatola nera contro modelli di apprendimento profondo per il rilevamento della tossicità. Inoltre, adattiamo un attacco basato su immagini ai dati testuali, minimizzando il numero di predizioni segnalate come tossiche. Successivamente, mostriamo tre metodi per migliorare la furtività degli attacchi esistenti sfruttando conoscenze aggiuntive sul modello da attaccare disponibili all’avversario in scenari a scatola grigia. Infine, discutiamo euristiche per rendere questi attacchi sviluppati applicabili in scenari reali.
Evading content moderation: beyond black-box attacks
Sandri, Alberto
2023/2024
Abstract
Every day many people experience toxic and uncivil behavior during online interactions on social media platforms. To solve this issue, platforms increasingly rely on automated content moderation systems to detect violations and enforce community guidelines. As these AI-based systems become critical to successful moderation, it is crucial to evaluate their robustness and understand their limitations. Previous research on adversarial machine learning for toxicity detection has focused on black-box scenarios. In this work, we extend the analysis to grey-box scenarios, exploring the capabilities and knowledge that adversaries can leverage to improve existing attacks. We establish benchmark evasion performances for black-box text classification attacks against deep learning models for toxicity detection. In addition, we adapt an image-based attack to text data, minimizing the number of queries flagged as toxic. We then show three methods to enhance the stealthiness of existing attacks by exploiting additional knowledge about the target model available to the adversary in grey-box scenarios. Finally, we discuss heuristics to make these developed attacks viable in real-world scenarios.File | Dimensione | Formato | |
---|---|---|---|
2024_10_Sandri_Tesi.pdf
Open Access dal 12/09/2025
Descrizione: Testo della tesi
Dimensione
11.2 MB
Formato
Adobe PDF
|
11.2 MB | Adobe PDF | Visualizza/Apri |
2024_10_Sandri_Executive Summary.pdf
Open Access dal 12/09/2025
Descrizione: Executive summary
Dimensione
371.25 kB
Formato
Adobe PDF
|
371.25 kB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/226879