Many companies today extract data from documents and forms either through manual data entry (a slow and expensive process) or through Optical Character Recognition (OCR), a software that converts images of typed, handwritten or printed text into machine-encoded text, but requires manual customization or configuration for correct extraction. Moreover, rules and workflows for each document and form often need to be hard- coded and updated with each change to the form or when dealing with multiple forms. OCR performances have been improved by Deep Learning techniques, increasing the interest towards automatic processing of data in scanned documents or images. More specifically, Entity Recognition systems are being developed that assign categories to textual information in digitized text extracted through OCR, thus allowing companies to extract and analyze structured data. The aim of this project was to research and develop novel techniques for the task of Entity Recognition on images of documents. The work was carried on during a stage at Bip and capitalized on an already developed and deployed on the market Entity Recognition system. The proposed method combines well-established Computer Vision techniques, such as OCR (Optical Character Recognition), Text Detection and Image Processing for extracting textual data and structural information from the document; with a novel use of Machine Learning and Natural Language Process techniques to create a supervised and data-driven system to solve this task, that will improve performance compared to the baseline system. The proposed method uses pretrained word-embedding models, and the structural data extracted from the preprocessing steps, to learn the context around which the searched entities are more likely present. The data extracted is preprocessed and given as input to Supervised Machine Learning models for each entity to extract. In order to find the best model for the training data we used Auto-ML, a newly developed technology that allows to automatically perform model selection using cross-validation and hyper-parameter optimization. Although the project was done using a small set of labeled samples, the systems shows improved performance for several entities compared to the baseline, showing that the systems represents a good first step for using Machine Learning models to solve the task. The system will be further developed as a consulting company project, using a larger dataset and more complex Deep Learning models.

Molte aziende tutt'oggi estraggono dati da document e form attraverso trascrizione manuale (un processo lento e costoso) o attraverso Optical Character Recognition (OCR), software che converte immagini di testi battuti, scritti a mano o stampati in testo elaborabile da un calcolatore, con successiva configurazione e personalizzazione manuale dei programmi che effettuano l'estrazione. Inoltre, spesso questi programmi richiedono la definizione manuale di regole e procedure che devono essere aggiornate ogni qual volta che viene presentato un tipo diverso di documento. Il miglioramento nella performance dei tool di OCR portato dall'utilizzo di tecnice di Deep Learning, ha fatto aumentare l'interesse di mercato per l'estrazione automatica di informazioni da documenti scannerizzati o immagini. Nello specifico, sistemi di Entity Recognition vengono continumente sviluppati per assegnare una categoria pre-definita a informazioni testuali estratte attraverso OCR, permettendo così alle aziende di estrarre e analizzare dati strutturati dai loro documenti. L'obiettivo di questo procetto è di ricercare e sviluppare nuove tecniche per risolvere il problema della Entity Recognition su immagini di documenti. Il lavoro è stato svolto durante uno stage in Bip, e mira a migliorare un sistema già sviluppato dall'azienda e inserito nel mercato. Il metodo proposto combina tecniche ben consolidate di Computer Vision, come OCR, Text Detection e Image Processing per estrarre informazioni testuali e strutturali dai documenti; con un uso innovativo di tecniche di Machine Learning e Natural Language Processing per creare un modello supervisionato e guidato dai dati per risolvere il problema, allo stesso tempo migliorando la performance del sistema corrente. Nell'impementazione del progetto utilizziamo modelli pretrainati di Word Embedding, con i dati estratti nella prima fase, per imparare il contesto in cui si collocano nel documento le entità ricercate. Per fare ciò, i dati estratti nei step di preprocessing sono dati come input di modelli supervisionati di Machine Learning finalizzati a riconoscere distintamente ogni entità prefissata. Per trovare i modelli ottimali abbiamo utilizzato AutoML, una tecnologia innovativa che permette di trovare automaticaente il modello ottimale, basandosi solo sul dataset che riceve in ingresso. Nonostante il progetto è stato sviluppato usando un piccolo insieme di esempi, il sistema mostra performance migliorate su numerose entità, rispetto al sistema di base da cui siamo partiti. Presentiamo quindi il sistema come un primo passo verso la totale automatizzazione della creazione di strumenti dedicati alla Entity Recognition. Il sistema continuerà ad essere sviluppato per conto dell'azienda usando un dataset più corposo e modelli di Deep Learning.

Supervised learning for entity recognition on scanned documents

SCIBETTA, GERLANDO SAVIO
2018/2019

Abstract

Many companies today extract data from documents and forms either through manual data entry (a slow and expensive process) or through Optical Character Recognition (OCR), a software that converts images of typed, handwritten or printed text into machine-encoded text, but requires manual customization or configuration for correct extraction. Moreover, rules and workflows for each document and form often need to be hard- coded and updated with each change to the form or when dealing with multiple forms. OCR performances have been improved by Deep Learning techniques, increasing the interest towards automatic processing of data in scanned documents or images. More specifically, Entity Recognition systems are being developed that assign categories to textual information in digitized text extracted through OCR, thus allowing companies to extract and analyze structured data. The aim of this project was to research and develop novel techniques for the task of Entity Recognition on images of documents. The work was carried on during a stage at Bip and capitalized on an already developed and deployed on the market Entity Recognition system. The proposed method combines well-established Computer Vision techniques, such as OCR (Optical Character Recognition), Text Detection and Image Processing for extracting textual data and structural information from the document; with a novel use of Machine Learning and Natural Language Process techniques to create a supervised and data-driven system to solve this task, that will improve performance compared to the baseline system. The proposed method uses pretrained word-embedding models, and the structural data extracted from the preprocessing steps, to learn the context around which the searched entities are more likely present. The data extracted is preprocessed and given as input to Supervised Machine Learning models for each entity to extract. In order to find the best model for the training data we used Auto-ML, a newly developed technology that allows to automatically perform model selection using cross-validation and hyper-parameter optimization. Although the project was done using a small set of labeled samples, the systems shows improved performance for several entities compared to the baseline, showing that the systems represents a good first step for using Machine Learning models to solve the task. The system will be further developed as a consulting company project, using a larger dataset and more complex Deep Learning models.
LUI, ANDREA
ING - Scuola di Ingegneria Industriale e dell'Informazione
3-ott-2019
2018/2019
Molte aziende tutt'oggi estraggono dati da document e form attraverso trascrizione manuale (un processo lento e costoso) o attraverso Optical Character Recognition (OCR), software che converte immagini di testi battuti, scritti a mano o stampati in testo elaborabile da un calcolatore, con successiva configurazione e personalizzazione manuale dei programmi che effettuano l'estrazione. Inoltre, spesso questi programmi richiedono la definizione manuale di regole e procedure che devono essere aggiornate ogni qual volta che viene presentato un tipo diverso di documento. Il miglioramento nella performance dei tool di OCR portato dall'utilizzo di tecnice di Deep Learning, ha fatto aumentare l'interesse di mercato per l'estrazione automatica di informazioni da documenti scannerizzati o immagini. Nello specifico, sistemi di Entity Recognition vengono continumente sviluppati per assegnare una categoria pre-definita a informazioni testuali estratte attraverso OCR, permettendo così alle aziende di estrarre e analizzare dati strutturati dai loro documenti. L'obiettivo di questo procetto è di ricercare e sviluppare nuove tecniche per risolvere il problema della Entity Recognition su immagini di documenti. Il lavoro è stato svolto durante uno stage in Bip, e mira a migliorare un sistema già sviluppato dall'azienda e inserito nel mercato. Il metodo proposto combina tecniche ben consolidate di Computer Vision, come OCR, Text Detection e Image Processing per estrarre informazioni testuali e strutturali dai documenti; con un uso innovativo di tecniche di Machine Learning e Natural Language Processing per creare un modello supervisionato e guidato dai dati per risolvere il problema, allo stesso tempo migliorando la performance del sistema corrente. Nell'impementazione del progetto utilizziamo modelli pretrainati di Word Embedding, con i dati estratti nella prima fase, per imparare il contesto in cui si collocano nel documento le entità ricercate. Per fare ciò, i dati estratti nei step di preprocessing sono dati come input di modelli supervisionati di Machine Learning finalizzati a riconoscere distintamente ogni entità prefissata. Per trovare i modelli ottimali abbiamo utilizzato AutoML, una tecnologia innovativa che permette di trovare automaticaente il modello ottimale, basandosi solo sul dataset che riceve in ingresso. Nonostante il progetto è stato sviluppato usando un piccolo insieme di esempi, il sistema mostra performance migliorate su numerose entità, rispetto al sistema di base da cui siamo partiti. Presentiamo quindi il sistema come un primo passo verso la totale automatizzazione della creazione di strumenti dedicati alla Entity Recognition. Il sistema continuerà ad essere sviluppato per conto dell'azienda usando un dataset più corposo e modelli di Deep Learning.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
SavioScibetta_THESIS(1).pdf

accessibile in internet solo dagli utenti autorizzati

Dimensione 4.51 MB
Formato Adobe PDF
4.51 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/149866