Ensuring the robustness and reliability of autonomous driving systems is critical, as these systems must operate in diverse and complex real-world scenarios. Existing metamorphic testing frameworks often fail to generate realistic and context-aware test cases, limiting their effectiveness. DILLEMA addresses these limitations by producing diverse, realistic, and context-sensitive test cases, enabling comprehensive evaluation of deep learning models. However, DILLEMA reliance on image captioning models poses challenges when critical details are missed, affecting the quality of the entire testing pipeline. This thesis extends DILLEMA by introducing a novel methodology that incorporates Visual Question Answering models to enhance the quality of image captions. Instead of relying on single or multi-sentence captions, this approach uses structured binary questions across critical areas for autonomous driving (scene understanding, traffic conditions and signs, weather and environment, and road situation). The responses are aggregated using a large language model to create detailed and accurate captions. Through an empirical evaluation of state-of-the-art models (BLIP, LLaMA, Git, Qwen, and ViLT), this thesis identifies the most effective model for autonomous driving scenarios. Empirical results show that the VQA-based approach significantly improves the ability to capture critical elements, enhancing the robustness of the test cases generated.

Abstract in lingua italiana} Garantire la robustezza e l'affidabilità dei sistemi di guida autonoma è fondamentale, poiché tali sistemi devono operare in scenari reali complessi e diversificati. I framework di testing metamorfico esistenti spesso non riescono a generare casi di test realistici e contestualizzati, limitandone l'efficacia. DILLEMA affronta queste limitazioni producendo casi di test diversificati, realistici e sensibili al contesto, consentendo una valutazione completa dei modelli di deep learning. Tuttavia, la dipendenza di DILLEMA dai modelli di descrizione delle immagini presenta delle sfide, in quanto il mancato riconoscimento di dettagli critici può compromettere la qualità dell'intera pipeline di testing. Questa tesi estende DILLEMA introducendo una nuova metodologia che incorpora modelli di Visual Question Answering (VQA) per migliorare la qualità delle descrizioni delle immagini. Invece di basarsi su descrizioni composte da una o più frasi, questo approccio utilizza domande binarie strutturate relative a aree critiche per la guida autonoma (comprensione della scena, condizioni del traffico e segnaletica, meteo e ambiente, e situazione stradale). Le risposte vengono aggregate utilizzando un modello linguistico avanzato per creare descrizioni dettagliate e accurate. Attraverso una valutazione empirica di modelli all'avanguardia (BLIP, LLaMA, Git, Qwen e ViLT), questa tesi identifica il modello più efficace per gli scenari di guida autonoma. I risultati empirici dimostrano che l'approccio basato sul VQA migliora significativamente la capacità di catturare elementi critici, aumentando la robustezza dei casi di test generati.

Improved captioning for autonomous driving

EBRAHIMI, MANSOURE
2023/2024

Abstract

Ensuring the robustness and reliability of autonomous driving systems is critical, as these systems must operate in diverse and complex real-world scenarios. Existing metamorphic testing frameworks often fail to generate realistic and context-aware test cases, limiting their effectiveness. DILLEMA addresses these limitations by producing diverse, realistic, and context-sensitive test cases, enabling comprehensive evaluation of deep learning models. However, DILLEMA reliance on image captioning models poses challenges when critical details are missed, affecting the quality of the entire testing pipeline. This thesis extends DILLEMA by introducing a novel methodology that incorporates Visual Question Answering models to enhance the quality of image captions. Instead of relying on single or multi-sentence captions, this approach uses structured binary questions across critical areas for autonomous driving (scene understanding, traffic conditions and signs, weather and environment, and road situation). The responses are aggregated using a large language model to create detailed and accurate captions. Through an empirical evaluation of state-of-the-art models (BLIP, LLaMA, Git, Qwen, and ViLT), this thesis identifies the most effective model for autonomous driving scenarios. Empirical results show that the VQA-based approach significantly improves the ability to capture critical elements, enhancing the robustness of the test cases generated.
HU, DAVIDE YI XIAN
ING - Scuola di Ingegneria Industriale e dell'Informazione
11-dic-2024
2023/2024
Abstract in lingua italiana} Garantire la robustezza e l'affidabilità dei sistemi di guida autonoma è fondamentale, poiché tali sistemi devono operare in scenari reali complessi e diversificati. I framework di testing metamorfico esistenti spesso non riescono a generare casi di test realistici e contestualizzati, limitandone l'efficacia. DILLEMA affronta queste limitazioni producendo casi di test diversificati, realistici e sensibili al contesto, consentendo una valutazione completa dei modelli di deep learning. Tuttavia, la dipendenza di DILLEMA dai modelli di descrizione delle immagini presenta delle sfide, in quanto il mancato riconoscimento di dettagli critici può compromettere la qualità dell'intera pipeline di testing. Questa tesi estende DILLEMA introducendo una nuova metodologia che incorpora modelli di Visual Question Answering (VQA) per migliorare la qualità delle descrizioni delle immagini. Invece di basarsi su descrizioni composte da una o più frasi, questo approccio utilizza domande binarie strutturate relative a aree critiche per la guida autonoma (comprensione della scena, condizioni del traffico e segnaletica, meteo e ambiente, e situazione stradale). Le risposte vengono aggregate utilizzando un modello linguistico avanzato per creare descrizioni dettagliate e accurate. Attraverso una valutazione empirica di modelli all'avanguardia (BLIP, LLaMA, Git, Qwen e ViLT), questa tesi identifica il modello più efficace per gli scenari di guida autonoma. I risultati empirici dimostrano che l'approccio basato sul VQA migliora significativamente la capacità di catturare elementi critici, aumentando la robustezza dei casi di test generati.
File allegati
File Dimensione Formato  
2024_11_EBRAHIMI_MANSOURE_THESIS_01.pdf.pdf

accessibile in internet solo dagli utenti autorizzati

Dimensione 4.63 MB
Formato Adobe PDF
4.63 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/231135