A multimodal benchmark for text-guided anomaly detection

Multimodal vision-language models have recently emerged as a promising paradigm for industrial anomaly detection, enabling zero-shot and few-shot inspection through textual guidance. By combining visual representations with textual prompts, these systems promise adaptive inspection and instruction-driven analysis. However, evaluation protocols have not evolved accordingly. Most multimodal anomaly detection methods are still assessed using benchmarks designed for purely visual models, leaving unclear whether language genuinely influences their decisions or just complements strong pretrained visual features. This thesis addresses this gap by defining a structured benchmark for evaluating text-guided anomaly detection. The proposed framework progressively increases the functional role of language across three scenarios: controlled text-sensitivity analysis on MVTec AD, a fine-grained per-part inspection setting requiring instruction-level conditioning, and a realistic industrial dataset characterized by complex component dependencies and non-square image geometry. Using standardized detection and localization metrics, we evaluate representative multimodal paradigms, including generative, discriminative, and embedding-adaptive approaches. The results show that textual input often has limited impact when evaluated under the proposed structured benchmark, frequently acting as a weak semantic prior rather than an explicit inference mechanism. Current models struggle to restrict anomaly assessment to instructed components unless additional architectural support is introduced. Furthermore, performance strongly depends on architectural alignment with square input geometry, with degradation observed on rectangular industrial images. These findings indicate that the robustness and text-guided capabilities of current multimodal anomaly detection systems may be overstated when evaluated solely on standard benchmarks. Overall, this work establishes a dedicated evaluation strategy that clarifies the true role of language in multimodal anomaly detection and provides a more reliable basis for assessing and deploying such systems in real industrial environments.

I modelli multimodali sono emersi come un paradigma promettente per l'industrial anomaly detection, consentendo analisi con poche immagini e prompt testuali. Tuttavia, i protocolli di valutazione di tale task non si sono evoluti di pari passo. La maggior parte dei metodi multimodali viene ancora valutata su benchmark progettati per modelli puramente visivi, rendendo incerto se il linguaggio influenzi realmente le decisioni o se integri semplicemente forti bias testuali. Questa tesi affronta questa mancanza definendo un benchmark strutturato per valutare l'anomaly detection guidata dal testo. Il framework proposto aumenta progressivamente il ruolo funzionale del linguaggio attraverso tre scenari: un'analisi di sensibilità al testo controllata su MVTec AD, un'ispezione dettagliata per singola parte che richiede condizionamento a livello di istruzione, e un dataset industriale realistico caratterizzato da dipendenze complesse tra componenti. Utilizzando metriche standardizzate di rilevamento e localizzazione, valutiamo i principali modelli multimodali, inclusi approcci generativi, discriminativi e di adattamento degli embedding. I risultati mostrano che l'input testuale ha spesso un impatto limitato se valutato secondo il benchmark strutturato proposto, agendo frequentemente come un debole prior semantico piuttosto che come un esplicito meccanismo di inferenza. I modelli attuali faticano a limitare la valutazione delle anomalie ai soli componenti indicati, a meno di introdurre supporti architettonici aggiuntivi. Inoltre, le prestazioni dipendono fortemente dall'allineamento dell'architettura alla risoluzione quadrata delle immagini, con prestazioni peggiori su immagini industriali rettangolari. Questi risultati indicano che la robustezza e la capacità di integrare il testo nei sistemi attuali sono limitate. Complessivamente, questo lavoro definisce una strategia di valutazione dedicata che chiarisce il ruolo effettivo del linguaggio nell'anomaly detection multimodale, fornendo una base più affidabile per l'integrazione di tali sistemi in contesti industriali reali.