Due to its challanges and its numerous applications (e.g. image restoration, automatic scene editing, super-resolution and dynamic object removal, to name a few), the problem of image inpainting has experienced a sudden increase in popularity in the deep learning community. Given an image with missing parts, image inpainting aims at synthesizing the missing content in order to produce a visually realistic and semantically correct image. The goal is to emulate the human ability to understand the content of an image with holes and to exploit this understanding to make plausible predictions to fill them. For the scope of this thesis, we focus our efforts on the improvement of the dynamic object removal performance. Since many SLAM (Simultaneous Localization and Mapping) and 3D reconstruction algorithms suffer from the presence of dynamic objects, researchers started to investigate the potential applications of rudimental inpainting stages to remove these objects. However, since these rudimental inpainting methods depend on camera localization, they may yield to poor tracking or reconstruction accuracy. Hence the need of developing novel inpainting techniques which are independent of camera tracking. In this thesis we present a novel neural network, SECI-GAN (Semantic and Edge Conditioned - Generative Adversarial Network), that is the first to exploit both semantic segmentation and edge data to achieve state-of-the-art performance for single image inpainting and dynamic object removal on complex street view images. Since SECI-GAN can leverage on both semantic and edge data, it is generally better at capturing the structure of the inpainted regions, producing sharper contours and making more reliable predictions of the missing parts. Thanks to its novel deformable convolutional encoding branch and the usage of gated convolution, SECI-GAN can efficiently capture long-term correlations and reproduce fine details. To demonstrate that SECI-GAN outperforms current state-of-the-art methods, we evaluate our results using full-reference objective metrics (for image inpainting) and a user study to measure the subjective perceptual quality of its outputs (for both image inpainting and dynamic object removal).

A causa delle sfide da esso poste e dalle sue innumerevoli applicazioni (e.g. restauro di immagini, fotoritocco automatico, super-risoluzione e rimozione di oggetti dinamici, ecc.), il problema dell'inpainting di immagini (i.e. reintegrazione di immagini) è divenuto estremamente popolare tra i ricercatori. Data un'immagine con parti mancanti, l'inpainting d'immagini mira a sintetizzare il contenuto mancante allo scopo di produrre risultati visualmente realistici e semanticamente corretti. Lo scopo è emulare la capacità umana di comprendere il contenuto di un'immagine con dei buchi e di sfruttare tale comprensione per riempirli in modo plausibile. Nell'ambito di questa tesi, focalizziamo i nostri sforzi nel miglioramento delle prestazioni nell'applicazione di rimozione di oggetti dinamici. Poiché molti algoritmi di SLAM (Simultaneous Localization and Mapping) e ricostruzione 3D soffrono la presenza di oggetti dinamici, i ricercatori hanno iniziato a investigare l’utilizzo di stage rudimentali d'inpainting per rimuoverli. Purtroppo, tali metodi d’inpainting dipendono dalla localizzazione della telecamera, e inducono a una scarsa accuratezza nel tracciamento o nella ricostruzione. Quindi, è necessario sviluppare nuove tecniche di inpainting che siano indipendenti dal tracciamento della telecamera. In questa tesi presentiamo una nuova rete neurale, SECI-GAN, che è la prima a sfruttare sia dati di segmentazione semantica che edge, ottenendo prestazioni da stato dell'arte per l'inpainting di immagini e per la rimozione di oggetti dinamici in immagini di viste stradali. SECI-GAN può predire meglio di altri metodi la struttura delle regioni reintegrate, producendo contorni più netti ed effettuando predizioni più affidabili dei contenuti mancanti. Grazie al suo nuovo ramo di encoding convoluzionale deformabile e all'utilizzo della gated convolution, SECI-GAN può efficientemente catturare correlazioni di lungo termine e riprodurre dettagli più fini. Per mostrare la superiorità di SECI-GAN, confrontiamo i nostri risultati con lo stato dell’arte utilizzando metriche oggettive full-reference e uno studio condotto su umani per misurare la qualità percettiva soggettiva.

SECI-GAN : exploiting semantic and edge data for image inpainting and dynamic object removal

PINTO, FRANCESCO
2018/2019

Abstract

Due to its challanges and its numerous applications (e.g. image restoration, automatic scene editing, super-resolution and dynamic object removal, to name a few), the problem of image inpainting has experienced a sudden increase in popularity in the deep learning community. Given an image with missing parts, image inpainting aims at synthesizing the missing content in order to produce a visually realistic and semantically correct image. The goal is to emulate the human ability to understand the content of an image with holes and to exploit this understanding to make plausible predictions to fill them. For the scope of this thesis, we focus our efforts on the improvement of the dynamic object removal performance. Since many SLAM (Simultaneous Localization and Mapping) and 3D reconstruction algorithms suffer from the presence of dynamic objects, researchers started to investigate the potential applications of rudimental inpainting stages to remove these objects. However, since these rudimental inpainting methods depend on camera localization, they may yield to poor tracking or reconstruction accuracy. Hence the need of developing novel inpainting techniques which are independent of camera tracking. In this thesis we present a novel neural network, SECI-GAN (Semantic and Edge Conditioned - Generative Adversarial Network), that is the first to exploit both semantic segmentation and edge data to achieve state-of-the-art performance for single image inpainting and dynamic object removal on complex street view images. Since SECI-GAN can leverage on both semantic and edge data, it is generally better at capturing the structure of the inpainted regions, producing sharper contours and making more reliable predictions of the missing parts. Thanks to its novel deformable convolutional encoding branch and the usage of gated convolution, SECI-GAN can efficiently capture long-term correlations and reproduce fine details. To demonstrate that SECI-GAN outperforms current state-of-the-art methods, we evaluate our results using full-reference objective metrics (for image inpainting) and a user study to measure the subjective perceptual quality of its outputs (for both image inpainting and dynamic object removal).
ROMANONI, ANDREA
ING - Scuola di Ingegneria Industriale e dell'Informazione
26-lug-2019
2018/2019
A causa delle sfide da esso poste e dalle sue innumerevoli applicazioni (e.g. restauro di immagini, fotoritocco automatico, super-risoluzione e rimozione di oggetti dinamici, ecc.), il problema dell'inpainting di immagini (i.e. reintegrazione di immagini) è divenuto estremamente popolare tra i ricercatori. Data un'immagine con parti mancanti, l'inpainting d'immagini mira a sintetizzare il contenuto mancante allo scopo di produrre risultati visualmente realistici e semanticamente corretti. Lo scopo è emulare la capacità umana di comprendere il contenuto di un'immagine con dei buchi e di sfruttare tale comprensione per riempirli in modo plausibile. Nell'ambito di questa tesi, focalizziamo i nostri sforzi nel miglioramento delle prestazioni nell'applicazione di rimozione di oggetti dinamici. Poiché molti algoritmi di SLAM (Simultaneous Localization and Mapping) e ricostruzione 3D soffrono la presenza di oggetti dinamici, i ricercatori hanno iniziato a investigare l’utilizzo di stage rudimentali d'inpainting per rimuoverli. Purtroppo, tali metodi d’inpainting dipendono dalla localizzazione della telecamera, e inducono a una scarsa accuratezza nel tracciamento o nella ricostruzione. Quindi, è necessario sviluppare nuove tecniche di inpainting che siano indipendenti dal tracciamento della telecamera. In questa tesi presentiamo una nuova rete neurale, SECI-GAN, che è la prima a sfruttare sia dati di segmentazione semantica che edge, ottenendo prestazioni da stato dell'arte per l'inpainting di immagini e per la rimozione di oggetti dinamici in immagini di viste stradali. SECI-GAN può predire meglio di altri metodi la struttura delle regioni reintegrate, producendo contorni più netti ed effettuando predizioni più affidabili dei contenuti mancanti. Grazie al suo nuovo ramo di encoding convoluzionale deformabile e all'utilizzo della gated convolution, SECI-GAN può efficientemente catturare correlazioni di lungo termine e riprodurre dettagli più fini. Per mostrare la superiorità di SECI-GAN, confrontiamo i nostri risultati con lo stato dell’arte utilizzando metriche oggettive full-reference e uno studio condotto su umani per misurare la qualità percettiva soggettiva.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
2019_07_Pinto.pdf

non accessibile

Descrizione: Thesis Text
Dimensione 25.05 MB
Formato Adobe PDF
25.05 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/150389