Video inpainting using deep learning

Biblioteche e Archivi
POLITesi - Archivio digitale delle tesi di laurea e di dottorato

Image and video inpainting are core computer vision problems. Recently, the progress in deep learning field allowed the emergence of image inpainting methods exhibiting results of unprecedented so far quality. Inspired by the success of learning techniques in image completion task, this thesis proposes two alternative solutions for more challenging video inpainting task. Human eye is very sensitive to even small distortions and can easily detect that an image has been manipulated. Direct application of image inpainting models to video frames results in inconsistency and flickering effect. Both presented models are generative networks. The first, operates on single frames and enforces the consistency in a post- processing step. Latter, looks at sequences of frames and utilizes adversarial temporal loss to improve the coherence. The first part of this work shows the state-of-the-art technology in the context of inpainting and latest advancements in deep learning. Afterwards, the design of proposed methods, datasets and training procedure details are explained. Moreover, the intermediate and final inpainting results are shown. Finally, the methods are evaluated on object removal task.

La ricostruzione di immagini e video è un problema fondamentale nel campo della computer vision. Di recente, i progressi nel campo del deep learning hanno permesso la comparsa di metodi di completamento dell’immagine che mostrano risultati di qualità finora senza precedenti. Ispirata dal successo delle tecniche di completamento delle 'immagini, questa tesi propone due soluzioni alternative per risolvere lo stesso problema nei video, che risultano molto più complessi. L'occhio umano è molto sensibile anche a piccole distorsioni e può facilmente rilevare che un'immagine è stata manipolata. l’applicazione diretta delle tecniche di ricostruzione delle immagini ai video provoca incoerenze ed effetti di sfarfallio. Entrambi i modelli presentati sono generative networks. Il primo, opera su singoli frame e ricostruisce la coerenza idelle immagini in una fase successiva di rielaborazione. la seconda, osserva sequenze di frame e utilizza l’ adversarial temporal loss per migliorare la coerenza. La prima parte di questo lavoro illustra lo stato dell’arte della completamento di immagini e gli ultimi progressi del deep learning. Successivamente viene spiegata la progettazione dei metodi proposti, i datasets e i dettagli della procedura di training. Inoltre, vengono mostrati i risultati della ricostruzione intermedi e finali. Infine, i metodi vengono valutati tramite attività di rimozione degli oggetti.

Video inpainting using deep learning

PASZKIEWICZ, MARCIN

2018/2019

Abstract

Image and video inpainting are core computer vision problems. Recently, the progress in deep learning field allowed the emergence of image inpainting methods exhibiting results of unprecedented so far quality. Inspired by the success of learning techniques in image completion task, this thesis proposes two alternative solutions for more challenging video inpainting task. Human eye is very sensitive to even small distortions and can easily detect that an image has been manipulated. Direct application of image inpainting models to video frames results in inconsistency and flickering effect. Both presented models are generative networks. The first, operates on single frames and enforces the consistency in a post- processing step. Latter, looks at sequences of frames and utilizes adversarial temporal loss to improve the coherence. The first part of this work shows the state-of-the-art technology in the context of inpainting and latest advancements in deep learning. Afterwards, the design of proposed methods, datasets and training procedure details are explained. Moreover, the intermediate and final inpainting results are shown. Finally, the methods are evaluated on object removal task.

Scheda breve

Scheda completa

	Relatore
	
				CREMONESI, PAOLO
			
	Correlatore/i
	
				MENASALVAS, ERNESTINA
			
	Scuola / Dip.
	
				ING  - Scuola di Ingegneria Industriale e dell'Informazione
			
	Data
	
				3-ott-2019
			
	Anno accademico
	
				2018/2019
			
	Abstract in italiano
	
				La ricostruzione di immagini e video è un problema fondamentale nel campo della computer vision.  Di recente, i progressi nel campo del deep learning hanno permesso la comparsa di metodi di completamento dell’immagine che mostrano risultati di qualità finora senza precedenti. Ispirata dal successo delle tecniche di completamento delle 'immagini, questa tesi propone due soluzioni alternative per risolvere lo stesso problema nei video, che risultano molto più complessi.

L'occhio umano è molto sensibile anche a piccole distorsioni e può facilmente rilevare che un'immagine è stata manipolata. l’applicazione diretta delle tecniche di ricostruzione delle immagini ai video provoca incoerenze ed effetti di sfarfallio. Entrambi i modelli presentati sono generative networks. Il primo, opera su singoli frame e ricostruisce la coerenza idelle immagini in una fase successiva di rielaborazione. la seconda, osserva sequenze di frame e utilizza l’ adversarial temporal loss  per migliorare la coerenza.

La prima parte di questo lavoro illustra lo stato dell’arte della completamento di immagini e gli ultimi progressi del deep learning. Successivamente viene spiegata la progettazione dei metodi proposti, i datasets e i dettagli della procedura di training. Inoltre, vengono mostrati i risultati della ricostruzione intermedi e finali. Infine, i metodi vengono valutati tramite attività di rimozione degli oggetti.
			
	Tipo di documento
	
				Tesi di laurea Magistrale
			
	Appare nelle tipologie:
	
				Tesi di laurea Magistrale

File allegati

File	Dimensione	Formato
Master_Thesis_POLIMI.pdf accessibile in internet per tutti Descrizione: Marcin Paszkiewicz Master Thesis Dimensione 61.02 MB Formato Adobe PDF Visualizza/Apri	61.02 MB	Adobe PDF	Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/149857