Diffusion models have empowered AI to create incredibly realistic images based on textual descriptions. This has led to powerful image editing tools like InstructPix2Pix, which allows users to modify images through text prompts (e.g., adding a sunset to a landscape). While these tools open many possibilities, the generated images can sometimes contain unintended artifacts or deviate from the desired edits. These errors can then propagate when used to train other models, reducing dataset quality. To address this issue, we propose AGIRE, a novel method for validating the fidelity of instruction-edited images. AGIRE leverages the ControlNet architecture to essentially "reverse engineer" the editing process. By analyzing how effectively an image can be returned to its original state, AGIRE identifies edits that deviate from the intended instructions. Our experiments evaluated AGIRE with different settings, and we discovered that the optimal configuration can effectively filter out incorrectly edited images generated by InstructPix2Pix.
I modelli di diffusione hanno permesso all'intelligenza artificiale (IA) di creare immagini incredibilmente realistiche basate su descrizioni testuali. Ciò ha portato a potenti strumenti di editing delle immagini come InstructPix2Pix, che consente agli utenti di modificare le immagini tramite prompt di testo (ad esempio, aggiungendo un tramonto a un paesaggio). Sebbene questi strumenti aprano molte possibilità, le immagini generate possono talvolta contenere artefatti indesiderati o discostarsi dalle modifiche desiderate. Questi errori possono quindi propagarsi quando vengono utilizzati per addestrare altri modelli, riducendo la qualità del dataset. Per affrontare questo problema, proponiamo AGIRE, un nuovo metodo per convalidare la fedeltà delle immagini modificate tramite istruzioni. AGIRE sfrutta l'architettura di Controlnet per "retroingegnerizzare" essenzialmente il processo di editing. Analizzando l'efficacia con cui un'immagine può essere riportata allo stato originale, AGIRE identifica le modifiche che si discostano dalle istruzioni previste. I nostri esperimenti hanno valutato AGIRE con diverse impostazioni, e abbiamo scoperto che la configurazione ottimale può filtrare efficacemente le immagini modificate in modo errato da InstructPix2Pix.
AGIRE: Assessing instruction-edited Generated Images with Reverse Editing
FEKRI, SAMAN
2023/2024
Abstract
Diffusion models have empowered AI to create incredibly realistic images based on textual descriptions. This has led to powerful image editing tools like InstructPix2Pix, which allows users to modify images through text prompts (e.g., adding a sunset to a landscape). While these tools open many possibilities, the generated images can sometimes contain unintended artifacts or deviate from the desired edits. These errors can then propagate when used to train other models, reducing dataset quality. To address this issue, we propose AGIRE, a novel method for validating the fidelity of instruction-edited images. AGIRE leverages the ControlNet architecture to essentially "reverse engineer" the editing process. By analyzing how effectively an image can be returned to its original state, AGIRE identifies edits that deviate from the intended instructions. Our experiments evaluated AGIRE with different settings, and we discovered that the optimal configuration can effectively filter out incorrectly edited images generated by InstructPix2Pix.File | Dimensione | Formato | |
---|---|---|---|
2024_07_Fekri_Thesis_01.pdf
accessibile in internet per tutti a partire dal 28/06/2025
Descrizione: Thesis
Dimensione
63.29 MB
Formato
Adobe PDF
|
63.29 MB | Adobe PDF | Visualizza/Apri |
2024_07_Fekri_Executive_Summary_02.pdf
accessibile in internet per tutti a partire dal 28/06/2025
Descrizione: Executive Summary
Dimensione
6.62 MB
Formato
Adobe PDF
|
6.62 MB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/222798