Optical character recognition(OCR) is a widespread technology that converts printed or handwritten text in a digital image of physical documents into a machine-readable format. Data digitization is a key step in the digital transformation of processes. As the digital world keeps growing, the amount of digital images with text increases, and the need for OCR methods that can handle more than plain text documents as well. The field of computer vision has seen tremendous progress through the development of deep learning, such that these methods have become infused in contemporary document understanding systems. OCR consists of two main sub-tasks, text detection, and text recognition. This work aims to utilize the various text detection and text recognition models currently in use and evaluate the performance of each combination of detection and recognition models on scanned document datasets. Here, we have tested the OCR tool developed on the SROIE (Scanned Receipt OCR and Information Extraction) dataset comprising of scanned copies of receipts, with the evalua- tion done using various string matching algorithms. The results show that combining the text detection model DRRG (Deep Relational Reasoning Graph) and the text recognition model Tesseract yields the highest accuracy with the least execution time among all the other combinations tested.

Il riconoscimento ottico dei caratteri (OCR) è una tecnologia diffusa che converte il testo stampato o scritto a mano in un’immagine digitale di documenti fisici in un formato leggibile dalla macchina. La digitalizzazione dei dati è un passaggio fondamentale nella trasformazione digitale dei processi. Man mano che il mondo digitale continua a crescere, la quantità di immagini digitali con testo aumenta e la necessità di metodi OCR in grado di gestire anche più documenti di testo semplice. Il campo della visione artificiale ha visto enormi progressi attraverso lo sviluppo del deep learning, tanto che questi metodi sono stati infusi nei sistemi contemporanei di comprensione dei documenti. L’OCR è costituito da due attività secondarie principali, rilevamento del testo e riconoscimento del testo. Questo lavoro mira a utilizzare i vari modelli di rilevamento e riconoscimento del testo attualmente in uso e valutare le prestazioni di ciascuna combinazione di modelli di rilevamento e riconoscimento su set di dati di documenti scansionati. Qui, abbiamo testato lo strumento OCR sviluppato sul set di dati SROIE (Scanned Re- ceipt OCR and Information Extraction) composto da copie scansionate di ricevute, con la valutazione effettuata utilizzando vari algoritmi di corrispondenza delle stringhe. I risultati mostrano che la combinazione del modello di rilevamento del testo DRRG (Deep Relational Reasoning Graph) e del modello di riconoscimento del testo Tesseract produce la massima precisione con il minor tempo di esecuzione tra tutte le altre combinazioni testate.

Optical character recognition tool

DEVI RADHAKRISHNAN
2022/2023

Abstract

Optical character recognition(OCR) is a widespread technology that converts printed or handwritten text in a digital image of physical documents into a machine-readable format. Data digitization is a key step in the digital transformation of processes. As the digital world keeps growing, the amount of digital images with text increases, and the need for OCR methods that can handle more than plain text documents as well. The field of computer vision has seen tremendous progress through the development of deep learning, such that these methods have become infused in contemporary document understanding systems. OCR consists of two main sub-tasks, text detection, and text recognition. This work aims to utilize the various text detection and text recognition models currently in use and evaluate the performance of each combination of detection and recognition models on scanned document datasets. Here, we have tested the OCR tool developed on the SROIE (Scanned Receipt OCR and Information Extraction) dataset comprising of scanned copies of receipts, with the evalua- tion done using various string matching algorithms. The results show that combining the text detection model DRRG (Deep Relational Reasoning Graph) and the text recognition model Tesseract yields the highest accuracy with the least execution time among all the other combinations tested.
De Marco, Leone
ING - Scuola di Ingegneria Industriale e dell'Informazione
20-dic-2022
2022/2023
Il riconoscimento ottico dei caratteri (OCR) è una tecnologia diffusa che converte il testo stampato o scritto a mano in un’immagine digitale di documenti fisici in un formato leggibile dalla macchina. La digitalizzazione dei dati è un passaggio fondamentale nella trasformazione digitale dei processi. Man mano che il mondo digitale continua a crescere, la quantità di immagini digitali con testo aumenta e la necessità di metodi OCR in grado di gestire anche più documenti di testo semplice. Il campo della visione artificiale ha visto enormi progressi attraverso lo sviluppo del deep learning, tanto che questi metodi sono stati infusi nei sistemi contemporanei di comprensione dei documenti. L’OCR è costituito da due attività secondarie principali, rilevamento del testo e riconoscimento del testo. Questo lavoro mira a utilizzare i vari modelli di rilevamento e riconoscimento del testo attualmente in uso e valutare le prestazioni di ciascuna combinazione di modelli di rilevamento e riconoscimento su set di dati di documenti scansionati. Qui, abbiamo testato lo strumento OCR sviluppato sul set di dati SROIE (Scanned Re- ceipt OCR and Information Extraction) composto da copie scansionate di ricevute, con la valutazione effettuata utilizzando vari algoritmi di corrispondenza delle stringhe. I risultati mostrano che la combinazione del modello di rilevamento del testo DRRG (Deep Relational Reasoning Graph) e del modello di riconoscimento del testo Tesseract produce la massima precisione con il minor tempo di esecuzione tra tutte le altre combinazioni testate.
File allegati
File Dimensione Formato  
Radhakrishnan_Devi_tesi.pdf

accessibile in internet solo dagli utenti autorizzati

Dimensione 2.82 MB
Formato Adobe PDF
2.82 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/201403