Image and video inpainting are core computer vision problems. Recently, the progress in deep learning field allowed the emergence of image inpainting methods exhibiting results of unprecedented so far quality. Inspired by the success of learning techniques in image completion task, this thesis proposes two alternative solutions for more challenging video inpainting task. Human eye is very sensitive to even small distortions and can easily detect that an image has been manipulated. Direct application of image inpainting models to video frames results in inconsistency and flickering effect. Both presented models are generative networks. The first, operates on single frames and enforces the consistency in a post- processing step. Latter, looks at sequences of frames and utilizes adversarial temporal loss to improve the coherence. The first part of this work shows the state-of-the-art technology in the context of inpainting and latest advancements in deep learning. Afterwards, the design of proposed methods, datasets and training procedure details are explained. Moreover, the intermediate and final inpainting results are shown. Finally, the methods are evaluated on object removal task.
La ricostruzione di immagini e video è un problema fondamentale nel campo della computer vision. Di recente, i progressi nel campo del deep learning hanno permesso la comparsa di metodi di completamento dell’immagine che mostrano risultati di qualità finora senza precedenti. Ispirata dal successo delle tecniche di completamento delle 'immagini, questa tesi propone due soluzioni alternative per risolvere lo stesso problema nei video, che risultano molto più complessi. L'occhio umano è molto sensibile anche a piccole distorsioni e può facilmente rilevare che un'immagine è stata manipolata. l’applicazione diretta delle tecniche di ricostruzione delle immagini ai video provoca incoerenze ed effetti di sfarfallio. Entrambi i modelli presentati sono generative networks. Il primo, opera su singoli frame e ricostruisce la coerenza idelle immagini in una fase successiva di rielaborazione. la seconda, osserva sequenze di frame e utilizza l’ adversarial temporal loss per migliorare la coerenza. La prima parte di questo lavoro illustra lo stato dell’arte della completamento di immagini e gli ultimi progressi del deep learning. Successivamente viene spiegata la progettazione dei metodi proposti, i datasets e i dettagli della procedura di training. Inoltre, vengono mostrati i risultati della ricostruzione intermedi e finali. Infine, i metodi vengono valutati tramite attività di rimozione degli oggetti.
Video inpainting using deep learning
PASZKIEWICZ, MARCIN
2018/2019
Abstract
Image and video inpainting are core computer vision problems. Recently, the progress in deep learning field allowed the emergence of image inpainting methods exhibiting results of unprecedented so far quality. Inspired by the success of learning techniques in image completion task, this thesis proposes two alternative solutions for more challenging video inpainting task. Human eye is very sensitive to even small distortions and can easily detect that an image has been manipulated. Direct application of image inpainting models to video frames results in inconsistency and flickering effect. Both presented models are generative networks. The first, operates on single frames and enforces the consistency in a post- processing step. Latter, looks at sequences of frames and utilizes adversarial temporal loss to improve the coherence. The first part of this work shows the state-of-the-art technology in the context of inpainting and latest advancements in deep learning. Afterwards, the design of proposed methods, datasets and training procedure details are explained. Moreover, the intermediate and final inpainting results are shown. Finally, the methods are evaluated on object removal task.File | Dimensione | Formato | |
---|---|---|---|
Master_Thesis_POLIMI.pdf
accessibile in internet per tutti
Descrizione: Marcin Paszkiewicz Master Thesis
Dimensione
61.02 MB
Formato
Adobe PDF
|
61.02 MB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/149857