Image and video inpainting are core computer vision problems. Recently, the progress in deep learning field allowed the emergence of image inpainting methods exhibiting results of unprecedented so far quality. Inspired by the success of learning techniques in image completion task, this thesis proposes two alternative solutions for more challenging video inpainting task. Human eye is very sensitive to even small distortions and can easily detect that an image has been manipulated. Direct application of image inpainting models to video frames results in inconsistency and flickering effect. Both presented models are generative networks. The first, operates on single frames and enforces the consistency in a post- processing step. Latter, looks at sequences of frames and utilizes adversarial temporal loss to improve the coherence. The first part of this work shows the state-of-the-art technology in the context of inpainting and latest advancements in deep learning. Afterwards, the design of proposed methods, datasets and training procedure details are explained. Moreover, the intermediate and final inpainting results are shown. Finally, the methods are evaluated on object removal task.

La ricostruzione di immagini e video è un problema fondamentale nel campo della computer vision. Di recente, i progressi nel campo del deep learning hanno permesso la comparsa di metodi di completamento dell’immagine che mostrano risultati di qualità finora senza precedenti. Ispirata dal successo delle tecniche di completamento delle 'immagini, questa tesi propone due soluzioni alternative per risolvere lo stesso problema nei video, che risultano molto più complessi. L'occhio umano è molto sensibile anche a piccole distorsioni e può facilmente rilevare che un'immagine è stata manipolata. l’applicazione diretta delle tecniche di ricostruzione delle immagini ai video provoca incoerenze ed effetti di sfarfallio. Entrambi i modelli presentati sono generative networks. Il primo, opera su singoli frame e ricostruisce la coerenza idelle immagini in una fase successiva di rielaborazione. la seconda, osserva sequenze di frame e utilizza l’ adversarial temporal loss per migliorare la coerenza. La prima parte di questo lavoro illustra lo stato dell’arte della completamento di immagini e gli ultimi progressi del deep learning. Successivamente viene spiegata la progettazione dei metodi proposti, i datasets e i dettagli della procedura di training. Inoltre, vengono mostrati i risultati della ricostruzione intermedi e finali. Infine, i metodi vengono valutati tramite attività di rimozione degli oggetti.

Video inpainting using deep learning

PASZKIEWICZ, MARCIN
2018/2019

Abstract

Image and video inpainting are core computer vision problems. Recently, the progress in deep learning field allowed the emergence of image inpainting methods exhibiting results of unprecedented so far quality. Inspired by the success of learning techniques in image completion task, this thesis proposes two alternative solutions for more challenging video inpainting task. Human eye is very sensitive to even small distortions and can easily detect that an image has been manipulated. Direct application of image inpainting models to video frames results in inconsistency and flickering effect. Both presented models are generative networks. The first, operates on single frames and enforces the consistency in a post- processing step. Latter, looks at sequences of frames and utilizes adversarial temporal loss to improve the coherence. The first part of this work shows the state-of-the-art technology in the context of inpainting and latest advancements in deep learning. Afterwards, the design of proposed methods, datasets and training procedure details are explained. Moreover, the intermediate and final inpainting results are shown. Finally, the methods are evaluated on object removal task.
MENASALVAS, ERNESTINA
ING - Scuola di Ingegneria Industriale e dell'Informazione
3-ott-2019
2018/2019
La ricostruzione di immagini e video è un problema fondamentale nel campo della computer vision. Di recente, i progressi nel campo del deep learning hanno permesso la comparsa di metodi di completamento dell’immagine che mostrano risultati di qualità finora senza precedenti. Ispirata dal successo delle tecniche di completamento delle 'immagini, questa tesi propone due soluzioni alternative per risolvere lo stesso problema nei video, che risultano molto più complessi. L'occhio umano è molto sensibile anche a piccole distorsioni e può facilmente rilevare che un'immagine è stata manipolata. l’applicazione diretta delle tecniche di ricostruzione delle immagini ai video provoca incoerenze ed effetti di sfarfallio. Entrambi i modelli presentati sono generative networks. Il primo, opera su singoli frame e ricostruisce la coerenza idelle immagini in una fase successiva di rielaborazione. la seconda, osserva sequenze di frame e utilizza l’ adversarial temporal loss per migliorare la coerenza. La prima parte di questo lavoro illustra lo stato dell’arte della completamento di immagini e gli ultimi progressi del deep learning. Successivamente viene spiegata la progettazione dei metodi proposti, i datasets e i dettagli della procedura di training. Inoltre, vengono mostrati i risultati della ricostruzione intermedi e finali. Infine, i metodi vengono valutati tramite attività di rimozione degli oggetti.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
Master_Thesis_POLIMI.pdf

accessibile in internet per tutti

Descrizione: Marcin Paszkiewicz Master Thesis
Dimensione 61.02 MB
Formato Adobe PDF
61.02 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/149857