The amount of data contained in textual form is increasing day-by-day: universities, companies, and organizations use textual documents to store information regarding researches, details of clients and orders, invoices, etc. Tables are frequently used to contain this information as they are a clear and easy-to-read representation of data. Specific applications use the latter data to make analysis and researches. However, to be later processed using software, the extraction of data from tables of a textual document, whether in native digital format or digitally acquired, is a time-consuming and error-prone task. The Italian company Moxoff got interested in the last period in developing a process able to automate the extraction of information contained within tables. With Moxoff's tutoring, this thesis investigates and implements a solution capable of automatically identifying tabular regions within textual documents and subsequently reconstructing their structure to extract the text. The solution proposed to solve the table detection task utilizes a state-of-the-art model to identify objects within images, namely Faster R-CNN. The latter model is based on a convolutional architecture and aims to detect the table's exact location inside a document. Once correctly located, the table is extracted from its original context and processed to reconstruct the cells' position that composes it. Computer vision algorithms are applied to the table to identify the vertical and horizontal lines that delimit the cells and the table itself. Subsequently, the individual cells' contours are recognized, and the table structure is reconstructed. Finally, Tesseract, an optical character recognition software, elaborates each cell to extract the contained text. Therefore, this work's final result is an application capable of processing a textual document containing tables for which it is necessary to extract the text and produce a digital representation that can be later stored in a database or used in a typical spreadsheet.

La quantità di dati contenuta in formato testale aumentata giorno per giorno: università, aziende e organizzazioni utilizzano documenti testuali per registrare informazioni riguardanti studi di ricerca, dettagli su clienti e ordini, fatture d’acquisto ecc. Le tabelle sono spesse usate per contenere queste informazioni in quanto rappresentazione chiara e facile da consultare dei dati. Sfruttando software specifici, questi ultimi vengono utilizzati per analisi e ricerche. Tuttavia, l’estrazione dei dati contenuti all’interno delle tabelle in un documento testuale, sia esso in formato digitale nativo che digitalmente acquisito, per poi essere processati mediante software, è un lavoro che richiede tempo e facilmente soggetto a errori. L’azienda italiana Moxoff si è interessata nell’ultimo periodo allo sviluppo di un processo in grado di automatizzare l’estrazione delle informazioni contenute nelle tabelle. Con l'ausilio di Moxoff, questa tesi si propone di indagare ed implementare una soluzione in grado di identificare in maniera automatica la presenza di una tabella all’interno di un documento testuale e conseguentemente di ricostruirne la struttura per poi poterne estrarre il testo. La soluzione proposta per il rilevamento delle tabelle nei documenti utilizza un modello stato dell’arte per l’identificazione degli oggetti all’interno delle immagini, chiamato Faster R-CNN. Quest’ultimo è basato su una architettura convolutiva e mira ad identificare la posizione esatta della tabella nel documento. Una volta localizzata correttamente, la tabella viene estratta dal suo contesto originale e processata al fine di ricostruire la posizione delle celle che la compongono. Per fare ciò, algoritmi di computer vision vengono applicati alla tabella per identificare le linee verticali ed orizzontali che delimitano le celle e la tabella stessa. Successivamente, i contorni delle singole celle vengono riconosciuti e la struttura tabellare ricostruita. Infine, ogni cella viene elaborata da Tesseract, un software per il riconoscimento ottico dei caratteri, con l’obiettivo di estrarne il testo. Il risultato finale di questo lavoro è quindi un applicativo in grado di elaborare un documento testuale contenente al suo interno tabelle per le quali è necessario estrarne il testo e di produrne una rappresentazione digitale, utilizzabile in seguito all'interno di un database oppure mediante un foglio di calcolo.

Table detection, table structure recognition, and text extraction : a deep learning approach

Peressini, Francesco
2019/2020

Abstract

The amount of data contained in textual form is increasing day-by-day: universities, companies, and organizations use textual documents to store information regarding researches, details of clients and orders, invoices, etc. Tables are frequently used to contain this information as they are a clear and easy-to-read representation of data. Specific applications use the latter data to make analysis and researches. However, to be later processed using software, the extraction of data from tables of a textual document, whether in native digital format or digitally acquired, is a time-consuming and error-prone task. The Italian company Moxoff got interested in the last period in developing a process able to automate the extraction of information contained within tables. With Moxoff's tutoring, this thesis investigates and implements a solution capable of automatically identifying tabular regions within textual documents and subsequently reconstructing their structure to extract the text. The solution proposed to solve the table detection task utilizes a state-of-the-art model to identify objects within images, namely Faster R-CNN. The latter model is based on a convolutional architecture and aims to detect the table's exact location inside a document. Once correctly located, the table is extracted from its original context and processed to reconstruct the cells' position that composes it. Computer vision algorithms are applied to the table to identify the vertical and horizontal lines that delimit the cells and the table itself. Subsequently, the individual cells' contours are recognized, and the table structure is reconstructed. Finally, Tesseract, an optical character recognition software, elaborates each cell to extract the contained text. Therefore, this work's final result is an application capable of processing a textual document containing tables for which it is necessary to extract the text and produce a digital representation that can be later stored in a database or used in a typical spreadsheet.
MATTEUCCI, MATTEO
ING - Scuola di Ingegneria Industriale e dell'Informazione
28-apr-2021
2019/2020
La quantità di dati contenuta in formato testale aumentata giorno per giorno: università, aziende e organizzazioni utilizzano documenti testuali per registrare informazioni riguardanti studi di ricerca, dettagli su clienti e ordini, fatture d’acquisto ecc. Le tabelle sono spesse usate per contenere queste informazioni in quanto rappresentazione chiara e facile da consultare dei dati. Sfruttando software specifici, questi ultimi vengono utilizzati per analisi e ricerche. Tuttavia, l’estrazione dei dati contenuti all’interno delle tabelle in un documento testuale, sia esso in formato digitale nativo che digitalmente acquisito, per poi essere processati mediante software, è un lavoro che richiede tempo e facilmente soggetto a errori. L’azienda italiana Moxoff si è interessata nell’ultimo periodo allo sviluppo di un processo in grado di automatizzare l’estrazione delle informazioni contenute nelle tabelle. Con l'ausilio di Moxoff, questa tesi si propone di indagare ed implementare una soluzione in grado di identificare in maniera automatica la presenza di una tabella all’interno di un documento testuale e conseguentemente di ricostruirne la struttura per poi poterne estrarre il testo. La soluzione proposta per il rilevamento delle tabelle nei documenti utilizza un modello stato dell’arte per l’identificazione degli oggetti all’interno delle immagini, chiamato Faster R-CNN. Quest’ultimo è basato su una architettura convolutiva e mira ad identificare la posizione esatta della tabella nel documento. Una volta localizzata correttamente, la tabella viene estratta dal suo contesto originale e processata al fine di ricostruire la posizione delle celle che la compongono. Per fare ciò, algoritmi di computer vision vengono applicati alla tabella per identificare le linee verticali ed orizzontali che delimitano le celle e la tabella stessa. Successivamente, i contorni delle singole celle vengono riconosciuti e la struttura tabellare ricostruita. Infine, ogni cella viene elaborata da Tesseract, un software per il riconoscimento ottico dei caratteri, con l’obiettivo di estrarne il testo. Il risultato finale di questo lavoro è quindi un applicativo in grado di elaborare un documento testuale contenente al suo interno tabelle per le quali è necessario estrarne il testo e di produrne una rappresentazione digitale, utilizzabile in seguito all'interno di un database oppure mediante un foglio di calcolo.
File allegati
File Dimensione Formato  
Thesis@Moxoff_Francesco_Peressini.pdf

non accessibile

Dimensione 4.27 MB
Formato Adobe PDF
4.27 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/174492