ocr-based text extraction algorithms for loan underwriting automation

The loan underwriting process involves gathering extensive information from various documentary sources. In addition, manual data entry within a management system is very resource-intensive and time-consuming. This thesis showcases the work performed during an internship at ML cube that focuses on developing an automated system to facilitate the data entry process in loan underwriting practices. The project is intended to process multiple documents involved in the underwriting procedure and extract their textual content by leveraging advanced optical character recognition (OCR) tools based on artificial intelligence techniques. Additionally, it provides for developing some text processing and correction algorithms to retrieve and refine information relevant to the purpose of filling out the practice. The implemented system consists of a cloud-based web service, specifically a web API, that can be easily integrated with the existing underwriting management service. Besides the extracted results, the service provides a confidence score based on the retrieved information. This value is computed by exploiting the prediction capability of a machine learning model and aims to aid the underwriting practice supervisors in result validation. Despite the complexity posed by the wide range of document types and their particular structure, the extraction system achieves highly satisfactory accuracy when tested on authentic documents, highlighting a significant increase in performance over simple OCR tool use. As a result, the service is expected to positively revolutionize the workflow during the operational phase by providing a sensible enhancement in terms of efficiency.

Il processo di creazione di una pratica di istruttoria per la concessione di prestiti e mutui richiede la raccolta di numerose informazioni da varie fonti documentali. Inoltre, il loro inserimento manuale all’interno di un sistema gestionale richiede un impiego di risorse e tempo rilevante. La tesi presenta il lavoro svolto durante uno stage presso l’azienda ML cube, nel quale è stato realizzato un sistema automatizzato volto ad agevolare la compilazione delle pratiche di istruttoria. Il progetto si pone l’obiettivo di processare i documenti coinvolti nella pratica di istruttoria estraendone il contenuto testuale, sfruttando strumenti avanzati di riconoscimento ottico dei caratteri (OCR) basati su tecniche di intelligenza artificiale. Inoltre, prevede lo sviluppo di algoritmi di elaborazione e correzione del testo capaci di recuperare e affinare le informazioni rilevanti ai fini della compilazione della pratica. Il sistema implementato consiste in un servizio web basato su un’infrastruttura cloud, nello specifico una web API, facilmente integrabile con il servizio di gestione delle pratiche di istruttoria attualmente in uso. In aggiunta ai risultati ottenuti dall’estrazione, il servizio è in grado di fornire, sfruttando la capacità predittiva di un modello di machine learning, un grado di confidenza relativo alle informazioni recuperate, per supportare la fase di validazione del risultato. Nonostante le complessità del problema, riconducibili all’ampia gamma di documenti gestiti e alle loro diverse strutture, il sistema mostra un grado di accuratezza particolarmente soddisfacente durante i test effettuati su documenti reali, evidenziando un significativo incremento delle prestazioni rispetto al semplice utilizzo dello strumento di OCR. Per questo motivo, è possibile prevedere che il servizio, in fase operativa, rivoluzioni positivamente il flusso di lavoro apportando un considerevole miglioramento in termini di efficienza.