In recent years, the rapid development of artificial intelligence has led to a proliferation of highly realistic synthetic images, raising concerns regarding their potential misuse. While these advancements offer excit- ing opportunities in various fields, including digital content creation and entertainment, they also pose significant threats, particularly in misinfor- mation dissemination, identity fraud, and digital forensics. The ability to reliably detect and attribute synthetic images to their generative sources is therefore of paramount importance. Traditional approaches to synthetic image detection often rely on a sin- gle classifier trained on a diverse dataset of real and AI-generated images or on ensemble-based methods aggregating multiple decisions. However, these methods struggle with generalization and scalability, as they are often ineffective against previously unseen generative models. Similarly, existing attribution techniques, which aim to identify the specific genera- tor responsible for a synthetic image, face limitations in adaptability and robustness. To address these challenges, this work proposes a novel framework based on a Mixture of Experts (MoE) approach, specifically designed for syn- thetic image detection and attribution. The proposed system consists of multiple specialized expert networks, each trained to recognize features unique to a specific generative model. A gating network dynamically selects and combines the most relevant experts for each input image, en- hancing both detection accuracy and attribution reliability. We evaluate our method on multiple datasets containing images gener- ated by different versions of Stable Diffusion, demonstrating its ability to generalize across different synthetic distributions. While our MoE- based framework significantly outperforms traditional single-classifier and ensemble-based approaches in detection, attribution remains a challeng- ing task, with room for further improvements.

Negli ultimi anni, il rapido sviluppo dell’intelligenza artificiale ha portato alla proliferazione di immagini sintetiche altamente realistiche, sollevando preoccupazioni sul loro potenziale utilizzo improprio. Sebbene questi progressi offrano opportunità entusiasmanti in diversi ambiti, tra cui la creazione di contenuti digitali e l’intrattenimento, essi rappresentano anche una minaccia sig- nificativa, in particolare per la diffusione di disinformazione, le frodi identitarie e l’analisi forense digitale. La capacità di rilevare e attribuire con precisione le immagini sintetiche alle loro fonti generative è quindi di fondamentale importanza. Le metodologie tradizionali per il rilevamento delle immagini sintetiche si basano spesso su un singolo classificatore addestrato su un dataset eterogeneo di immagini reali e generate da AI o su approcci "ensemble" che aggregano più decisioni. Tuttavia, questi metodi soffrono di problemi di generalizzazione e scalabilità, risultando spesso inefficaci contro modelli generativi non visti in fase di addestramento. Analogamente, le tecniche di attribuzione esistenti, il cui obiettivo è identificare il generatore specifico responsabile di un’immagine sintetica, presentano limiti in termini di adattabilità e robustezza. Per affrontare queste sfide, questo lavoro propone un nuovo framework basato su un approccio Mixture of Experts (MoE), progettato specificamente per il rilevamento e l’attribuzione di immagini sintetiche. Il sistema proposto integra una rete di esperti specializzati, ciascuno addestrato a riconoscere pattern distintivi di un particolare modello generativo. Una rete di gating assegna dinamicamente il peso ottimale a ciascun esperto in base alle caratteristiche dell’immagine in esame, migliorando sia l’accuratezza del rilevamento che l’affidabilità dell’attribuzione. Valutiamo il nostro metodo su diversi dataset contenenti immagini generate da diverse versioni di Stable Diffusion, dimostrando la sua capacità di generalizzare su differenti distribuzioni sintetiche. Sebbene il nostro framework basato su MoE superi significativamente i tradizionali classificatori singoli e gli approcci ensemble nella rilevazione, l’attribuzione rimane una sfida aperta, con margini di miglioramento.

Unmasking synthetic images: a MoE approach to detection and attribution

RONCUZZI, ENRICO
2024/2025

Abstract

In recent years, the rapid development of artificial intelligence has led to a proliferation of highly realistic synthetic images, raising concerns regarding their potential misuse. While these advancements offer excit- ing opportunities in various fields, including digital content creation and entertainment, they also pose significant threats, particularly in misinfor- mation dissemination, identity fraud, and digital forensics. The ability to reliably detect and attribute synthetic images to their generative sources is therefore of paramount importance. Traditional approaches to synthetic image detection often rely on a sin- gle classifier trained on a diverse dataset of real and AI-generated images or on ensemble-based methods aggregating multiple decisions. However, these methods struggle with generalization and scalability, as they are often ineffective against previously unseen generative models. Similarly, existing attribution techniques, which aim to identify the specific genera- tor responsible for a synthetic image, face limitations in adaptability and robustness. To address these challenges, this work proposes a novel framework based on a Mixture of Experts (MoE) approach, specifically designed for syn- thetic image detection and attribution. The proposed system consists of multiple specialized expert networks, each trained to recognize features unique to a specific generative model. A gating network dynamically selects and combines the most relevant experts for each input image, en- hancing both detection accuracy and attribution reliability. We evaluate our method on multiple datasets containing images gener- ated by different versions of Stable Diffusion, demonstrating its ability to generalize across different synthetic distributions. While our MoE- based framework significantly outperforms traditional single-classifier and ensemble-based approaches in detection, attribution remains a challeng- ing task, with room for further improvements.
GIGANTI, ANTONIO
NEGRONI, VIOLA
ING - Scuola di Ingegneria Industriale e dell'Informazione
2-apr-2025
2024/2025
Negli ultimi anni, il rapido sviluppo dell’intelligenza artificiale ha portato alla proliferazione di immagini sintetiche altamente realistiche, sollevando preoccupazioni sul loro potenziale utilizzo improprio. Sebbene questi progressi offrano opportunità entusiasmanti in diversi ambiti, tra cui la creazione di contenuti digitali e l’intrattenimento, essi rappresentano anche una minaccia sig- nificativa, in particolare per la diffusione di disinformazione, le frodi identitarie e l’analisi forense digitale. La capacità di rilevare e attribuire con precisione le immagini sintetiche alle loro fonti generative è quindi di fondamentale importanza. Le metodologie tradizionali per il rilevamento delle immagini sintetiche si basano spesso su un singolo classificatore addestrato su un dataset eterogeneo di immagini reali e generate da AI o su approcci "ensemble" che aggregano più decisioni. Tuttavia, questi metodi soffrono di problemi di generalizzazione e scalabilità, risultando spesso inefficaci contro modelli generativi non visti in fase di addestramento. Analogamente, le tecniche di attribuzione esistenti, il cui obiettivo è identificare il generatore specifico responsabile di un’immagine sintetica, presentano limiti in termini di adattabilità e robustezza. Per affrontare queste sfide, questo lavoro propone un nuovo framework basato su un approccio Mixture of Experts (MoE), progettato specificamente per il rilevamento e l’attribuzione di immagini sintetiche. Il sistema proposto integra una rete di esperti specializzati, ciascuno addestrato a riconoscere pattern distintivi di un particolare modello generativo. Una rete di gating assegna dinamicamente il peso ottimale a ciascun esperto in base alle caratteristiche dell’immagine in esame, migliorando sia l’accuratezza del rilevamento che l’affidabilità dell’attribuzione. Valutiamo il nostro metodo su diversi dataset contenenti immagini generate da diverse versioni di Stable Diffusion, dimostrando la sua capacità di generalizzare su differenti distribuzioni sintetiche. Sebbene il nostro framework basato su MoE superi significativamente i tradizionali classificatori singoli e gli approcci ensemble nella rilevazione, l’attribuzione rimane una sfida aperta, con margini di miglioramento.
File allegati
File Dimensione Formato  
Thesis_Roncuzzi_Enrico.pdf

accessibile in internet per tutti

Descrizione: Unmasking Synthetic Images: A MoE Approach to Detection and Attribution
Dimensione 3.49 MB
Formato Adobe PDF
3.49 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/235027