Post-earthquake building damage assessment demands rapid and consistent structural evaluation, yet limited expert availability constrains disaster response. This thesis examines how domain knowledge can be embedded into vision-language models through prompt engineering and parameter-efficient fine-tuning, and how these strategies can support AI-assisted engineering education. Using 914 Italian post-earthquake images from the DFM dataset labeled under EMS-98, seven adaptation methods were tested on Qwen3-VL, including zero-shot, several prompting strategies, automated prompt optimization with BootstrapFewShot and MIPROv2, and LoRA fine-tuning. Sensitivity analysis identified 1024 px at 90% JPEG quality as the optimal preprocessing configuration. Results show a clear performance hierarchy. LoRA fine-tuning achieved the highest accuracy on both the five-class EMS-98 scale (77.5%) and a three-category scheme (92.0%), eliminating severe multi-grade misclassifications and restricting errors to adjacent classes. Among prompting approaches, BootstrapFewShot performed best (53.1% and 77.5%), while more complex manual prompting underperformed the zero-shot baseline. This outcome reflects a symbol grounding bottleneck: linguistic damage descriptions cannot be reliably anchored to visual patterns by a frozen encoder, and increasing prompt complexity raises reasoning errors without improving perceptual discrimination. Prompt-based methods also revealed a marked gap between masonry and reinforced concrete structures, largely reduced through fine-tuning. Error analysis indicates systematic overestimation bias in prompting, whereas fine-tuning yields calibrated adjacent-category errors. The thesis also proposes a Forest of Knowledge framework that structures expertise into interconnected trees and, through a four-stage pipeline, enables generation of personalized learning content for scalable professional education in resource-constrained contexts.

La valutazione dei danni agli edifici dopo un terremoto richiede analisi strutturali rapide e coerenti, ma la disponibilità limitata di esperti rappresenta un vincolo critico nella gestione dell’emergenza. Questa tesi studia come la conoscenza specialistica possa essere integrata nei modelli vision-language tramite prompt engineering e fine-tuning a efficienza parametrica, e come tali strategie possano essere trasferite alla formazione ingegneristica assistita dall’IA. Sono state analizzate 914 immagini post-sisma di edifici italiani del dataset DFM, classificate secondo la scala EMS-98, valutando sette strategie su Qwen3-VL: zero-shot, diverse tecniche di prompting, ottimizzazione automatica dei prompt con BootstrapFewShot e MIPROv2, e fine-tuning LoRA. L’analisi di sensibilità ha identificato 1024 px al 90% JPEG come configurazione di pre-processing ottimale. I risultati mostrano una chiara gerarchia. Il fine-tuning LoRA ha ottenuto la massima accuratezza sia sulla scala EMS-98 a cinque classi (77,5%) sia su uno schema a tre categorie (92,0%), eliminando errori gravi tra classi distanti e limitando quelli residui a categorie adiacenti. Tra i metodi di prompting, BootstrapFewShot è risultato il migliore (53,1% e 77,5%), mentre strategie manuali più complesse hanno performato peggio del baseline zero-shot. Questo risultato evidenzia un limite di symbol grounding: le descrizioni linguistiche del danno non vengono ancorate in modo affidabile ai pattern visivi da un encoder congelato, e l’aumento della complessità del prompt incrementa gli errori senza migliorare la discriminazione percettiva. I metodi di prompting mostrano inoltre un divario tra muratura e cemento armato, ridotto dal fine-tuning, e una tendenza sistematica alla sovrastima; il fine-tuning produce invece errori calibrati e adiacenti. La tesi propone infine il framework Forest of Knowledge, che struttura l’expertise in alberi interconnessi e, tramite una pipeline in quattro fasi, consente la generazione di contenuti didattici personalizzati per una formazione scalabile in contesti con risorse limitate.

AI applications for post-seismic rapid damage survey: a tool supporting assesment and training

ZANETTI IRABIEN, GIUSEPPE;MONTENEGRO ARROYAVE, ANDRES CAMILO
2025/2026

Abstract

Post-earthquake building damage assessment demands rapid and consistent structural evaluation, yet limited expert availability constrains disaster response. This thesis examines how domain knowledge can be embedded into vision-language models through prompt engineering and parameter-efficient fine-tuning, and how these strategies can support AI-assisted engineering education. Using 914 Italian post-earthquake images from the DFM dataset labeled under EMS-98, seven adaptation methods were tested on Qwen3-VL, including zero-shot, several prompting strategies, automated prompt optimization with BootstrapFewShot and MIPROv2, and LoRA fine-tuning. Sensitivity analysis identified 1024 px at 90% JPEG quality as the optimal preprocessing configuration. Results show a clear performance hierarchy. LoRA fine-tuning achieved the highest accuracy on both the five-class EMS-98 scale (77.5%) and a three-category scheme (92.0%), eliminating severe multi-grade misclassifications and restricting errors to adjacent classes. Among prompting approaches, BootstrapFewShot performed best (53.1% and 77.5%), while more complex manual prompting underperformed the zero-shot baseline. This outcome reflects a symbol grounding bottleneck: linguistic damage descriptions cannot be reliably anchored to visual patterns by a frozen encoder, and increasing prompt complexity raises reasoning errors without improving perceptual discrimination. Prompt-based methods also revealed a marked gap between masonry and reinforced concrete structures, largely reduced through fine-tuning. Error analysis indicates systematic overestimation bias in prompting, whereas fine-tuning yields calibrated adjacent-category errors. The thesis also proposes a Forest of Knowledge framework that structures expertise into interconnected trees and, through a four-stage pipeline, enables generation of personalized learning content for scalable professional education in resource-constrained contexts.
ING I - Scuola di Ingegneria Civile, Ambientale e Territoriale
25-mar-2026
2025/2026
La valutazione dei danni agli edifici dopo un terremoto richiede analisi strutturali rapide e coerenti, ma la disponibilità limitata di esperti rappresenta un vincolo critico nella gestione dell’emergenza. Questa tesi studia come la conoscenza specialistica possa essere integrata nei modelli vision-language tramite prompt engineering e fine-tuning a efficienza parametrica, e come tali strategie possano essere trasferite alla formazione ingegneristica assistita dall’IA. Sono state analizzate 914 immagini post-sisma di edifici italiani del dataset DFM, classificate secondo la scala EMS-98, valutando sette strategie su Qwen3-VL: zero-shot, diverse tecniche di prompting, ottimizzazione automatica dei prompt con BootstrapFewShot e MIPROv2, e fine-tuning LoRA. L’analisi di sensibilità ha identificato 1024 px al 90% JPEG come configurazione di pre-processing ottimale. I risultati mostrano una chiara gerarchia. Il fine-tuning LoRA ha ottenuto la massima accuratezza sia sulla scala EMS-98 a cinque classi (77,5%) sia su uno schema a tre categorie (92,0%), eliminando errori gravi tra classi distanti e limitando quelli residui a categorie adiacenti. Tra i metodi di prompting, BootstrapFewShot è risultato il migliore (53,1% e 77,5%), mentre strategie manuali più complesse hanno performato peggio del baseline zero-shot. Questo risultato evidenzia un limite di symbol grounding: le descrizioni linguistiche del danno non vengono ancorate in modo affidabile ai pattern visivi da un encoder congelato, e l’aumento della complessità del prompt incrementa gli errori senza migliorare la discriminazione percettiva. I metodi di prompting mostrano inoltre un divario tra muratura e cemento armato, ridotto dal fine-tuning, e una tendenza sistematica alla sovrastima; il fine-tuning produce invece errori calibrati e adiacenti. La tesi propone infine il framework Forest of Knowledge, che struttura l’expertise in alberi interconnessi e, tramite una pipeline in quattro fasi, consente la generazione di contenuti didattici personalizzati per una formazione scalabile in contesti con risorse limitate.
File allegati
File Dimensione Formato  
2026_03_Montenegro_Zanetti_Thesis_01.pdf

accessibile in internet per tutti

Dimensione 39.04 MB
Formato Adobe PDF
39.04 MB Adobe PDF Visualizza/Apri
2026_03_Montenegro_Zanetti_Executive Summary_02.pdf

accessibile in internet per tutti

Dimensione 1.04 MB
Formato Adobe PDF
1.04 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/253528