In today's digital landscape, the importance of timely and accurate vulnerability detection has significantly increased. This thesis presents a novel approach that leverages transformer-based models and machine learning techniques to automate the identification of software vulnerabilities by analyzing GitHub issues. A new dataset is introduced, specifically designed for classifying GitHub issues relevant to vulnerability detection. Various classification techniques, are examined and compared to determine their effectiveness. The results demonstrate the potential of this approach for real-world application in early vulnerability detection, which could substantially reduce the window of exploitation for software vulnerabilities. This research makes a key contribution to the field by providing a scalable and computationally efficient framework for automated vulnerability detection, with the potential to enhance the security of open-source software ecosystems.

Nel panorama digitale odierno, l'importanza della rilevazione tempestiva e accurata delle vulnerabilità è aumentata notevolmente. Questa tesi presenta un approccio innovativo che sfrutta modelli basati su l'architettura dei Transformer e tecniche di machine learning per automatizzare l'identificazione delle vulnerabilità software, analizzando issue presenti su GitHub. Viene introdotto un nuovo dataset, progettato specificamente per classificare gli issue rilevanti per la rilevazione delle vulnerabilità. Vengono esaminate e confrontate diverse tecniche di classificazione per determinarne l'efficacia. I risultati dimostrano il potenziale di questo approccio per l'applicazione nel mondo reale che potrebbe ridurre in modo sostanziale il periodo di esposizione all'exploit delle vulnerabilità software. Questa ricerca rappresenta un contributo significativo nel campo, fornendo un framework scalabile ed efficiente dal punto di vista computazionale per la rilevazione automatica delle vulnerabilità, con il potenziale di migliorare la sicurezza degli ecosistemi di software open source.

Transformer-based models for code vulnerability detection

Cipollone, Daniele
2023/2024

Abstract

In today's digital landscape, the importance of timely and accurate vulnerability detection has significantly increased. This thesis presents a novel approach that leverages transformer-based models and machine learning techniques to automate the identification of software vulnerabilities by analyzing GitHub issues. A new dataset is introduced, specifically designed for classifying GitHub issues relevant to vulnerability detection. Various classification techniques, are examined and compared to determine their effectiveness. The results demonstrate the potential of this approach for real-world application in early vulnerability detection, which could substantially reduce the window of exploitation for software vulnerabilities. This research makes a key contribution to the field by providing a scalable and computationally efficient framework for automated vulnerability detection, with the potential to enhance the security of open-source software ecosystems.
ING - Scuola di Ingegneria Industriale e dell'Informazione
11-dic-2024
2023/2024
Nel panorama digitale odierno, l'importanza della rilevazione tempestiva e accurata delle vulnerabilità è aumentata notevolmente. Questa tesi presenta un approccio innovativo che sfrutta modelli basati su l'architettura dei Transformer e tecniche di machine learning per automatizzare l'identificazione delle vulnerabilità software, analizzando issue presenti su GitHub. Viene introdotto un nuovo dataset, progettato specificamente per classificare gli issue rilevanti per la rilevazione delle vulnerabilità. Vengono esaminate e confrontate diverse tecniche di classificazione per determinarne l'efficacia. I risultati dimostrano il potenziale di questo approccio per l'applicazione nel mondo reale che potrebbe ridurre in modo sostanziale il periodo di esposizione all'exploit delle vulnerabilità software. Questa ricerca rappresenta un contributo significativo nel campo, fornendo un framework scalabile ed efficiente dal punto di vista computazionale per la rilevazione automatica delle vulnerabilità, con il potenziale di migliorare la sicurezza degli ecosistemi di software open source.
File allegati
File Dimensione Formato  
Polimi_Thesis_in_Computer_Science_and_Engineering.pdf

solo utenti autorizzati a partire dal 09/11/2027

Dimensione 3.21 MB
Formato Adobe PDF
3.21 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/229774