The management of Euro Medium Term Notes (EMTNs) involves handling extensive financial documentation, including issuance reports, pricing supplements, and regulatory filings. Traditionally, the processing of these documents has relied on manual methods, which are time-consuming, error-prone, and inefficient in large-scale financial operations. This thesis explores the application of Natural Language Processing (NLP) and Machine Learning (ML) techniques to automate financial data extraction, validation, and compliance tracking in EMTN management. A Transformer-based Named Entity Recognition (NER) model, specifically XLM-RoBERTa, is fine-tuned to extract key financial entities from unstructured text. The study integrates Optical Character Recognition (OCR) for scanned financial documents, leveraging Tesseract OCR and PDF processing techniques to enhance text retrieval accuracy. To enhance the model’s adaptability and reduce errors, data augmentation techniques such as word substitution, masking, and sentence reordering were applied. These methods improve the accuracy and reliability of information extraction. Evaluation metrics such as precision, recall, and F1-score validate the model’s effectiveness, demonstrating a significant improvement over traditional rule-based extraction methods.

La gestione degli Euro Medium Term Notes (EMTNs) implica la gestione di una vasta documentazione finanziaria, tra cui report di emissione, supplementi di prezzo e documenti normativi. Tradizionalmente, il trattamento di questi documenti si è basato su metodi manuali, che risultano dispendiosi in termini di tempo, soggetti a errori e inefficienti nelle operazioni finanziarie su larga scala. Questa tesi esplora l'applicazione di tecniche di Natural Language Processing (NLP) e Machine Learning (ML) per automatizzare l'estrazione, la validazione e il monitoraggio della conformità dei dati finanziari nella gestione degli EMTN. Un modello di Named Entity Recognition (NER) basato su Transformer, specificamente XLM-RoBERTa, è stato affinato per estrarre entità finanziarie chiave da testo non strutturato quale un prospetto finanziario. Lo studio integra il riconoscimento ottico dei caratteri (OCR) per documenti finanziari, sfruttando Tesseract OCR e tecniche di elaborazione PDF per migliorare l'accuratezza del recupero del testo. Per migliorare l’adattabilità del modello e ridurre gli errori, sono state applicate tecniche di arricchimento dei dati come la sostituzione di parole, la mascheratura e la riorganizzazione delle frasi. Questi metodi migliorano l’accuratezza e l’affidabilità dell’estrazione delle informazioni. Metriche di valutazione come precisione, richiamo e F1-score convalidano l'efficacia del modello, dimostrando un miglioramento significativo rispetto ai metodi di estrazione basati su regole tradizionali.

Natural language processing in Euro Medium Term Notes: a machine learning approach to finance

Sidoli, Camilla
2023/2024

Abstract

The management of Euro Medium Term Notes (EMTNs) involves handling extensive financial documentation, including issuance reports, pricing supplements, and regulatory filings. Traditionally, the processing of these documents has relied on manual methods, which are time-consuming, error-prone, and inefficient in large-scale financial operations. This thesis explores the application of Natural Language Processing (NLP) and Machine Learning (ML) techniques to automate financial data extraction, validation, and compliance tracking in EMTN management. A Transformer-based Named Entity Recognition (NER) model, specifically XLM-RoBERTa, is fine-tuned to extract key financial entities from unstructured text. The study integrates Optical Character Recognition (OCR) for scanned financial documents, leveraging Tesseract OCR and PDF processing techniques to enhance text retrieval accuracy. To enhance the model’s adaptability and reduce errors, data augmentation techniques such as word substitution, masking, and sentence reordering were applied. These methods improve the accuracy and reliability of information extraction. Evaluation metrics such as precision, recall, and F1-score validate the model’s effectiveness, demonstrating a significant improvement over traditional rule-based extraction methods.
ING - Scuola di Ingegneria Industriale e dell'Informazione
3-apr-2025
2023/2024
La gestione degli Euro Medium Term Notes (EMTNs) implica la gestione di una vasta documentazione finanziaria, tra cui report di emissione, supplementi di prezzo e documenti normativi. Tradizionalmente, il trattamento di questi documenti si è basato su metodi manuali, che risultano dispendiosi in termini di tempo, soggetti a errori e inefficienti nelle operazioni finanziarie su larga scala. Questa tesi esplora l'applicazione di tecniche di Natural Language Processing (NLP) e Machine Learning (ML) per automatizzare l'estrazione, la validazione e il monitoraggio della conformità dei dati finanziari nella gestione degli EMTN. Un modello di Named Entity Recognition (NER) basato su Transformer, specificamente XLM-RoBERTa, è stato affinato per estrarre entità finanziarie chiave da testo non strutturato quale un prospetto finanziario. Lo studio integra il riconoscimento ottico dei caratteri (OCR) per documenti finanziari, sfruttando Tesseract OCR e tecniche di elaborazione PDF per migliorare l'accuratezza del recupero del testo. Per migliorare l’adattabilità del modello e ridurre gli errori, sono state applicate tecniche di arricchimento dei dati come la sostituzione di parole, la mascheratura e la riorganizzazione delle frasi. Questi metodi migliorano l’accuratezza e l’affidabilità dell’estrazione delle informazioni. Metriche di valutazione come precisione, richiamo e F1-score convalidano l'efficacia del modello, dimostrando un miglioramento significativo rispetto ai metodi di estrazione basati su regole tradizionali.
File allegati
File Dimensione Formato  
2025_04_Sidoli.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Natural Language Processing in Euro Medium Term Notes: A Machine Learning Approach to Finance
Dimensione 1.96 MB
Formato Adobe PDF
1.96 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/235707