In recent years, the number of frauds has increased, since the rise of digital technology and the Internet has made it easier for fraudsters to carry out their activities on a larger scale and with greater sophistication. One of the most significant factors contributing to the increase in fraud is the growing use of online transactions in many fields, which has created new opportunities for fraudsters to exploit vulnerabilities in digital systems and networks. These problems have not spared even the transport sector, which loses more and more money yearly because of fare evasion and ticket forgery. In response to the increasing threat of frauds, governments and businesses have invested in new technologies and systems to improve fraud detection and prevention. This includes the use of Machine Learning algorithms and artificial intelligence to identify patterns of suspicious behavior and transactions. In the travel transport context, these systems are designed to deal with fraudulent financial behavior, such as chargeback, and do not take into consideration all other kinds of ticket forgery frauds. In this work, we study the application of Machine Learning algorithms to detect ticket forgery frauds and select the most suitable algorithm that can be applied in this domain. To the best of our knowledge, this is the first work in this area that takes into account malicious behaviors not related to fraudulent purchases. Thanks to the collaboration of a local transport company, we evaluate both supervised and unsupervised models to a real dataset augmented with synthetic fraudulent patterns built in collaboration with domain experts after an in-depth analysis of the data at our disposal to highlight different kinds of illegal behaviors that can be perpetrated by users. We achieve quite good results in both settings: between 80% and 85% of actual frauds are detected with an average precision between 60% and 85%. Overall, based on the evaluation metrics used in this study, the Local Outlier Factor algorithm seems to be the most suitable approach for the given context. It consistently outperforms all other algorithms tested achieving a ROC-AUC score of 0.97 on average.

Negli ultimi anni, il numero di frodi è aumentato, poiché l’avvento della tecnologia digitale e di Internet ha reso più facile per i truffatori svolgere le loro attività su scala sempre più ampia e in maniera più sofisticata. Uno dei fattori più significativi che ha contribuito all'aumento delle frodi è il crescente uso dei servizi online in molti campi, che ha aperto nuove strade per perpetrare comportamenti dannosi sfruttando le vulnerabilità nei sistemi e nelle reti digitali. Questi problemi non hanno risparmiato nemmeno il settore dei trasporti, che ogni anno perde sempre più soldi a causa dell'evasione tariffaria e della falsificazione dei biglietti. In risposta alla crescente minaccia di frodi, i governi e le imprese hanno investito in nuove tecnologie e sistemi per migliorare l'individuazione e la prevenzione delle frodi. Ciò include l'uso di algoritmi di Machine Learning per identificare comportamenti e transazioni sospette. Nel contesto dei trasporti, questi sistemi sono progettati per affrontare frodi finanziare, come il chargeback, e non prendono in considerazione tutti gli altri tipi di frodi relative alla falsificazione dei biglietti. In questo lavoro, abbiamo applicato algoritmi di Machine Learning per rilevare le frodi di falsificazione dei biglietti e selezionare l'algoritmo più adatto che può essere applicato in questo dominio. Per quanto ne sappiamo, questo è il primo lavoro in questo settore che tiene conto di comportamenti dannosi non legati ad acquisti fraudolenti. Grazie alla collaborazione con un'azienda di trasporti, possiamo valutare i modelli supervisionati e non supervisionati con un set di dati reale aumentato con frodi sintetiche costruite in collaborazione con esperti del dominio dopo un'analisi approfondita dei dati a nostra disposizione utile ad evidenziare diversi tipi di comportamenti illegali che possono essere perpetrati dagli utenti. Con entrambe le tecniche si ottengono risultati abbastanza buoni: tra l’80% e l’85% delle frodi effettive sono state individuate con una precisione media compresa tra il 60% e l’85%. Nel complesso, sulla base delle metriche di valutazione utilizzate in questo studio, l'algoritmo Local Outlier Factor sembra essere l'approccio più adatto per il contesto dato. Supera costantemente tutti gli altri algoritmi testati ottenendo un punteggio medio ROC-AUC di 0,97.

A study of machine learning algorithms for detecting ticket forgery fraud in public transportation

Marchetti, Federica
2021/2022

Abstract

In recent years, the number of frauds has increased, since the rise of digital technology and the Internet has made it easier for fraudsters to carry out their activities on a larger scale and with greater sophistication. One of the most significant factors contributing to the increase in fraud is the growing use of online transactions in many fields, which has created new opportunities for fraudsters to exploit vulnerabilities in digital systems and networks. These problems have not spared even the transport sector, which loses more and more money yearly because of fare evasion and ticket forgery. In response to the increasing threat of frauds, governments and businesses have invested in new technologies and systems to improve fraud detection and prevention. This includes the use of Machine Learning algorithms and artificial intelligence to identify patterns of suspicious behavior and transactions. In the travel transport context, these systems are designed to deal with fraudulent financial behavior, such as chargeback, and do not take into consideration all other kinds of ticket forgery frauds. In this work, we study the application of Machine Learning algorithms to detect ticket forgery frauds and select the most suitable algorithm that can be applied in this domain. To the best of our knowledge, this is the first work in this area that takes into account malicious behaviors not related to fraudulent purchases. Thanks to the collaboration of a local transport company, we evaluate both supervised and unsupervised models to a real dataset augmented with synthetic fraudulent patterns built in collaboration with domain experts after an in-depth analysis of the data at our disposal to highlight different kinds of illegal behaviors that can be perpetrated by users. We achieve quite good results in both settings: between 80% and 85% of actual frauds are detected with an average precision between 60% and 85%. Overall, based on the evaluation metrics used in this study, the Local Outlier Factor algorithm seems to be the most suitable approach for the given context. It consistently outperforms all other algorithms tested achieving a ROC-AUC score of 0.97 on average.
CALETTI, CLAUDIO
ZANERO, STEFANO
ING - Scuola di Ingegneria Industriale e dell'Informazione
4-mag-2023
2021/2022
Negli ultimi anni, il numero di frodi è aumentato, poiché l’avvento della tecnologia digitale e di Internet ha reso più facile per i truffatori svolgere le loro attività su scala sempre più ampia e in maniera più sofisticata. Uno dei fattori più significativi che ha contribuito all'aumento delle frodi è il crescente uso dei servizi online in molti campi, che ha aperto nuove strade per perpetrare comportamenti dannosi sfruttando le vulnerabilità nei sistemi e nelle reti digitali. Questi problemi non hanno risparmiato nemmeno il settore dei trasporti, che ogni anno perde sempre più soldi a causa dell'evasione tariffaria e della falsificazione dei biglietti. In risposta alla crescente minaccia di frodi, i governi e le imprese hanno investito in nuove tecnologie e sistemi per migliorare l'individuazione e la prevenzione delle frodi. Ciò include l'uso di algoritmi di Machine Learning per identificare comportamenti e transazioni sospette. Nel contesto dei trasporti, questi sistemi sono progettati per affrontare frodi finanziare, come il chargeback, e non prendono in considerazione tutti gli altri tipi di frodi relative alla falsificazione dei biglietti. In questo lavoro, abbiamo applicato algoritmi di Machine Learning per rilevare le frodi di falsificazione dei biglietti e selezionare l'algoritmo più adatto che può essere applicato in questo dominio. Per quanto ne sappiamo, questo è il primo lavoro in questo settore che tiene conto di comportamenti dannosi non legati ad acquisti fraudolenti. Grazie alla collaborazione con un'azienda di trasporti, possiamo valutare i modelli supervisionati e non supervisionati con un set di dati reale aumentato con frodi sintetiche costruite in collaborazione con esperti del dominio dopo un'analisi approfondita dei dati a nostra disposizione utile ad evidenziare diversi tipi di comportamenti illegali che possono essere perpetrati dagli utenti. Con entrambe le tecniche si ottengono risultati abbastanza buoni: tra l’80% e l’85% delle frodi effettive sono state individuate con una precisione media compresa tra il 60% e l’85%. Nel complesso, sulla base delle metriche di valutazione utilizzate in questo studio, l'algoritmo Local Outlier Factor sembra essere l'approccio più adatto per il contesto dato. Supera costantemente tutti gli altri algoritmi testati ottenendo un punteggio medio ROC-AUC di 0,97.
File allegati
File Dimensione Formato  
2023_Maggio_Marchetti.pdf

solo utenti autorizzati a partire dal 10/04/2026

Dimensione 2.3 MB
Formato Adobe PDF
2.3 MB Adobe PDF   Visualizza/Apri
2023_Maggio_Marchetti_ExecutiveSummary.pdf

solo utenti autorizzati a partire dal 10/04/2026

Dimensione 376.44 kB
Formato Adobe PDF
376.44 kB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/204800