The increasing reliance on software systems has made software security a critical concern: despite advances in automated vulnerability detection, the identification of flaws within raw methods remains challenging due to the limitations of traditional approaches such as manual code review and dynamic analysis. This study investigates the potential of some recent lightweight Large Language Models (LLMs) for vulnerability detection in raw C / C++ methods. We evaluate both lightweight models such as Llama, CodeQwen, Mistral and Phi on their zero-shot capabilities against PDBERT, a fine-tuned baseline, initially tasking them with a binary classification problem and further analyzing their behavior with specific CWE categories. In the next step, Llama, as the most promising model, is fine-tuned, reaching a better performance compared to its base version. We further analyze models’ embedding vector space through dimensionality reduction and clustering, gaining insights into learned features and decision-making processes. Finally, we also implement an innovative AI multi-agent approach leveraging the CrewAI framework, highlighting the potential of collaborative agents in improving the accuracy and efficiency in vulnerability detection tasks, compared to conventional methods.

La crescente dipendenza dai sistemi informatici ha fatto sì che la preoccupazione globale sulla sicurezza del software aumentasse notevolmente. Nonostante i progressi nel rilevamento automatico delle vulnerabilità, identificare i difetti all’interno del codice rimane una sfida a causa dei limiti degli approcci più tradizionali come la revisione manuale e l’analisi dinamica. Questo studio in particolare indaga il potenziale di alcuni dei più recenti modelli linguistici di piccole dimensioni per il rilevamento di vulnerabilità in metodi scritti in C / C++. I modelli target utilizzati in questa valutazione sono LLMs come Llama, CodeQwen, Mistral e Phi, e PDBERT, un modello appositamente allenato su questo specifico task. In seguito, Llama, essendo il modello più promettente, viene ulteriormente allenato, raggiungendo prestazioni migliori rispetto alla sua versione base. Inoltre, analizziamo lo spazio vettoriale generato dai modelli attraverso tecniche come dimensionality reduction e clustering applicate alle rappresentazioni dei metodi, ottenendo una maggiore conoscenza sul modo in cui i modelli affrontano questo tipo di task. Infine, implementiamo un approccio innovativo multi-agente attraverso il framework CrewAI, mettendo in luce il potenziale degli agenti collaborativi nell’aumentare precisione ed efficienza nelle attività di rilevamento delle vulnerabilità, rispetto ai metodi più convenzionali.

Exploring feature space and evaluating detection strategies for C/C++ vulnerabilities with lightweight LLMs

ISGRO', ANDREA
2023/2024

Abstract

The increasing reliance on software systems has made software security a critical concern: despite advances in automated vulnerability detection, the identification of flaws within raw methods remains challenging due to the limitations of traditional approaches such as manual code review and dynamic analysis. This study investigates the potential of some recent lightweight Large Language Models (LLMs) for vulnerability detection in raw C / C++ methods. We evaluate both lightweight models such as Llama, CodeQwen, Mistral and Phi on their zero-shot capabilities against PDBERT, a fine-tuned baseline, initially tasking them with a binary classification problem and further analyzing their behavior with specific CWE categories. In the next step, Llama, as the most promising model, is fine-tuned, reaching a better performance compared to its base version. We further analyze models’ embedding vector space through dimensionality reduction and clustering, gaining insights into learned features and decision-making processes. Finally, we also implement an innovative AI multi-agent approach leveraging the CrewAI framework, highlighting the potential of collaborative agents in improving the accuracy and efficiency in vulnerability detection tasks, compared to conventional methods.
PANEBIANCO, FRANCESCO
ING - Scuola di Ingegneria Industriale e dell'Informazione
3-apr-2025
2023/2024
La crescente dipendenza dai sistemi informatici ha fatto sì che la preoccupazione globale sulla sicurezza del software aumentasse notevolmente. Nonostante i progressi nel rilevamento automatico delle vulnerabilità, identificare i difetti all’interno del codice rimane una sfida a causa dei limiti degli approcci più tradizionali come la revisione manuale e l’analisi dinamica. Questo studio in particolare indaga il potenziale di alcuni dei più recenti modelli linguistici di piccole dimensioni per il rilevamento di vulnerabilità in metodi scritti in C / C++. I modelli target utilizzati in questa valutazione sono LLMs come Llama, CodeQwen, Mistral e Phi, e PDBERT, un modello appositamente allenato su questo specifico task. In seguito, Llama, essendo il modello più promettente, viene ulteriormente allenato, raggiungendo prestazioni migliori rispetto alla sua versione base. Inoltre, analizziamo lo spazio vettoriale generato dai modelli attraverso tecniche come dimensionality reduction e clustering applicate alle rappresentazioni dei metodi, ottenendo una maggiore conoscenza sul modo in cui i modelli affrontano questo tipo di task. Infine, implementiamo un approccio innovativo multi-agente attraverso il framework CrewAI, mettendo in luce il potenziale degli agenti collaborativi nell’aumentare precisione ed efficienza nelle attività di rilevamento delle vulnerabilità, rispetto ai metodi più convenzionali.
File allegati
File Dimensione Formato  
2024_04_Isgro_Executive Summary.pdf

accessibile in internet per tutti

Descrizione: Testo executive summary
Dimensione 789.21 kB
Formato Adobe PDF
789.21 kB Adobe PDF Visualizza/Apri
2024_04_Isgro_Tesi.pdf

accessibile in internet per tutti

Descrizione: Testo tesi
Dimensione 1.47 MB
Formato Adobe PDF
1.47 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/234630