Deep learning techniques, usually relying on complex architectures, have achieved in recent years state-of-the-art performance on a variety of complex computer vision tasks. The great success of such data-driven techniques, however, comes at the cost of an increased need of data, which, in most scenarios, is very difficult or even impossible to gather. This is even more crucial in industrial scenarios in which data usually contains sensitive information that need user approval before it can be used for training. For these reasons, hand engineered algorithms able to generate synthetic data that resemble real ones are commonly used to satisfy the lack of samples during training. Designing good generation procedure is however not trivial and requires to reproduce realistic noise and mimic all possible real world variations. In this thesis we focus on designing automated procedures, making use of deep learning techniques, to address these issues on the task of detecting components within digital scans of printed electrical schemes, i.e., single line diagrams. Even if those methods still require to collect real world data, they do not need labels, which makes them easier to gather in most scenarios. We compare different approaches making use of deep neural networks, such as encoder-decoder architectures and generative networks for image-to-image translation, and we train them to augment synthetically generated samples. Finally, using a state-of-the-art object detector, i.e., YOLO, as baseline, we show that applying such augmentation techniques improves detection performance and provides better results than standard augmentation and preprocessing techniques, e.g. denoising, when applied on real world data.

Le tecniche di apprendimento profondo, spesso basate su architetture complesse, hanno raggiunto negli ultimi anni prestazioni all'avanguardia in un gran numero di compiti complessi di visione artificiale. Il grande successo di tali tecniche di apprendimento ha comportato un aumento della necessità di avere a disposizione dati, che tuttavia, nella maggior parte degi casi, sono molto difficili o addirittura impossibili da raccogliere. Questa necessità è ancora più cruciale se si considerano realtà industriali in cui i dati contengono solitamente informazioni sensibili che richiedono l'approvazione dell'utente prima di poter essere utilizzati per l'addestramento. Per questi motivi, algoritmi in grado di generare dati sintetici simili a quelli reali vengono comunemente utilizzati per sopperire alla mancanza di campioni durante l'addestramento. Progettare procedure in grado di generare dati realistici non è tuttavia banale e richiede di poter riprodurre sia un rumore realistico che imitare tutte le possibili variazioni dei campioni nel mondo reale. In questa tesi ci siamo focalizzati sulla progettazione di procedure automatizzate, facenti uso di tecniche di apprendimento profondo, per risolvere queste criticità nell'ambito dell'individuazione di componenti elettrici all'interno di scansioni digitali di schemi elettrici stampati su carta, anche chiamati diagrammi unifilari. Nonostante questi metodi richiedano comunque la raccolta di dati realistici, essi non hanno bisogno di annotazioni per l'addestramento, il che rende più facile la loro raccolta in gran parte degli scenari. In questa tesi abbiamo confrontato diversi approcci che fanno uso di reti neurali profonde, come architetture encoder-decoder e reti generative per la traduzione image-to-image, con lo scopo di migliorare i campioni generati sinteticamente. Infine, utilizzando un rilevatore di oggetti all'avanguardia, YOLO, come base di riferimento, abbiamo mostrato che l'applicazione di tali tecniche di potenziamento migliora le prestazioni di rilevamento e fornisce risultati migliori rispetto a tecniche di potenziamento e pre-elaborazione standard, come il denoising, se applicata su dati reali.

Deep learning techniques for data augmentation in single line diagrams analysis

MARTINAZZI, LUCA
2018/2019

Abstract

Deep learning techniques, usually relying on complex architectures, have achieved in recent years state-of-the-art performance on a variety of complex computer vision tasks. The great success of such data-driven techniques, however, comes at the cost of an increased need of data, which, in most scenarios, is very difficult or even impossible to gather. This is even more crucial in industrial scenarios in which data usually contains sensitive information that need user approval before it can be used for training. For these reasons, hand engineered algorithms able to generate synthetic data that resemble real ones are commonly used to satisfy the lack of samples during training. Designing good generation procedure is however not trivial and requires to reproduce realistic noise and mimic all possible real world variations. In this thesis we focus on designing automated procedures, making use of deep learning techniques, to address these issues on the task of detecting components within digital scans of printed electrical schemes, i.e., single line diagrams. Even if those methods still require to collect real world data, they do not need labels, which makes them easier to gather in most scenarios. We compare different approaches making use of deep neural networks, such as encoder-decoder architectures and generative networks for image-to-image translation, and we train them to augment synthetically generated samples. Finally, using a state-of-the-art object detector, i.e., YOLO, as baseline, we show that applying such augmentation techniques improves detection performance and provides better results than standard augmentation and preprocessing techniques, e.g. denoising, when applied on real world data.
ING - Scuola di Ingegneria Industriale e dell'Informazione
18-dic-2019
2018/2019
Le tecniche di apprendimento profondo, spesso basate su architetture complesse, hanno raggiunto negli ultimi anni prestazioni all'avanguardia in un gran numero di compiti complessi di visione artificiale. Il grande successo di tali tecniche di apprendimento ha comportato un aumento della necessità di avere a disposizione dati, che tuttavia, nella maggior parte degi casi, sono molto difficili o addirittura impossibili da raccogliere. Questa necessità è ancora più cruciale se si considerano realtà industriali in cui i dati contengono solitamente informazioni sensibili che richiedono l'approvazione dell'utente prima di poter essere utilizzati per l'addestramento. Per questi motivi, algoritmi in grado di generare dati sintetici simili a quelli reali vengono comunemente utilizzati per sopperire alla mancanza di campioni durante l'addestramento. Progettare procedure in grado di generare dati realistici non è tuttavia banale e richiede di poter riprodurre sia un rumore realistico che imitare tutte le possibili variazioni dei campioni nel mondo reale. In questa tesi ci siamo focalizzati sulla progettazione di procedure automatizzate, facenti uso di tecniche di apprendimento profondo, per risolvere queste criticità nell'ambito dell'individuazione di componenti elettrici all'interno di scansioni digitali di schemi elettrici stampati su carta, anche chiamati diagrammi unifilari. Nonostante questi metodi richiedano comunque la raccolta di dati realistici, essi non hanno bisogno di annotazioni per l'addestramento, il che rende più facile la loro raccolta in gran parte degli scenari. In questa tesi abbiamo confrontato diversi approcci che fanno uso di reti neurali profonde, come architetture encoder-decoder e reti generative per la traduzione image-to-image, con lo scopo di migliorare i campioni generati sinteticamente. Infine, utilizzando un rilevatore di oggetti all'avanguardia, YOLO, come base di riferimento, abbiamo mostrato che l'applicazione di tali tecniche di potenziamento migliora le prestazioni di rilevamento e fornisce risultati migliori rispetto a tecniche di potenziamento e pre-elaborazione standard, come il denoising, se applicata su dati reali.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
thesis_template_1.pdf

non accessibile

Dimensione 602.06 kB
Formato Adobe PDF
602.06 kB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/152218