Page segmentation is the task of decomposing document scans into many different regions such as text, images, tables and graphs. It is the fi rst step in document image recognition and it is still a challenging problem due to the variety of possible document layouts. In this thesis we study an effective method for accomplish the page segmentation phase and improve state of the art in this task. To accomplish this goal we explore two deep learning models with typical structures ne-tuned using the transfer learning technique: You Only Look Once (YOLO) and AlexNet. Our approach out-performs the state of the art in this task enriching the document parsing pipeline composed by recursive segmentation, homogeneity criterion, and the median fi lters, through the use of the convolutional neural networks. The proposed method has been tested with the dataset of "ICDAR2009 page segmentation" competition and compared with the state of the art in the text/non-text segmentation task. The results of these tests show that the proposed system overperform the previous one improving both text and non-text segmentation.

La segmentazione di una pagina consiste nello scomporre l'immagine di un documento nelle differenti regioni che lo compongono come: regioni di testo, immagini, tabelle e gra ci. Questa è la prima fase nel contesto del riconoscimento dei documenti ed è ancora un problema non risolto a causa della varietà di stili differenti nei layout. In questa tesi abbiamo studiato un metodo efficace che migliorasse lo stato dell'arte per quanto riguarda la fase di segmentazione della pagina. Abbiamo studiato due diversi modelli di deep learning, AlexNet e You Only Look Once (YOLO), addestrati attraverso la tecnica transfer learning, per stabilire le loro performance sul dataset da noi creato. Abbiamo inoltre implementato l'algoritmo oggi considerato lo stato dell'arte nella segmentazione della pagina, modi ficandolo in parte, ovvero sfruttando la segmentazione ricorsiva, il criterio di omogeneità e i filtri mediani, e aggiungendo l'utilizzo della rete neurale convoluzionale che ha dato migliori risultati sul dataset da noi realizzato: AlexNet. Il nostro metodo è stato poi testato sul dataset della competizione "ICDAR2009 page segmentation" ed i risultati sono stati confrontati con lo stato dell'arte nella segmentazione della pagina considerando la separazione tra testo e non testo. I risultati mostrano che il sistema proposto migliora le prestazioni del precedente sia nella segmentazione delle regioni testuali sia in quella delle regioni non testuali.

Document layout analysis : segmentation and classification with computer vision and deep learning techniques

BIFFI, SIMONE
2016/2017

Abstract

Page segmentation is the task of decomposing document scans into many different regions such as text, images, tables and graphs. It is the fi rst step in document image recognition and it is still a challenging problem due to the variety of possible document layouts. In this thesis we study an effective method for accomplish the page segmentation phase and improve state of the art in this task. To accomplish this goal we explore two deep learning models with typical structures ne-tuned using the transfer learning technique: You Only Look Once (YOLO) and AlexNet. Our approach out-performs the state of the art in this task enriching the document parsing pipeline composed by recursive segmentation, homogeneity criterion, and the median fi lters, through the use of the convolutional neural networks. The proposed method has been tested with the dataset of "ICDAR2009 page segmentation" competition and compared with the state of the art in the text/non-text segmentation task. The results of these tests show that the proposed system overperform the previous one improving both text and non-text segmentation.
ING - Scuola di Ingegneria Industriale e dell'Informazione
19-apr-2018
2016/2017
La segmentazione di una pagina consiste nello scomporre l'immagine di un documento nelle differenti regioni che lo compongono come: regioni di testo, immagini, tabelle e gra ci. Questa è la prima fase nel contesto del riconoscimento dei documenti ed è ancora un problema non risolto a causa della varietà di stili differenti nei layout. In questa tesi abbiamo studiato un metodo efficace che migliorasse lo stato dell'arte per quanto riguarda la fase di segmentazione della pagina. Abbiamo studiato due diversi modelli di deep learning, AlexNet e You Only Look Once (YOLO), addestrati attraverso la tecnica transfer learning, per stabilire le loro performance sul dataset da noi creato. Abbiamo inoltre implementato l'algoritmo oggi considerato lo stato dell'arte nella segmentazione della pagina, modi ficandolo in parte, ovvero sfruttando la segmentazione ricorsiva, il criterio di omogeneità e i filtri mediani, e aggiungendo l'utilizzo della rete neurale convoluzionale che ha dato migliori risultati sul dataset da noi realizzato: AlexNet. Il nostro metodo è stato poi testato sul dataset della competizione "ICDAR2009 page segmentation" ed i risultati sono stati confrontati con lo stato dell'arte nella segmentazione della pagina considerando la separazione tra testo e non testo. I risultati mostrano che il sistema proposto migliora le prestazioni del precedente sia nella segmentazione delle regioni testuali sia in quella delle regioni non testuali.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
2018_04_Biffi.pdf

accessibile in internet per tutti

Descrizione: Testo della tesi
Dimensione 31.49 MB
Formato Adobe PDF
31.49 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/140146