In the last years, Denoising Diffusion Probabilistic Models (DDPMs) obtained state-of-the-art results in many generative tasks, outperforming GANs and other classes of generative models. In particular, they reached impressive results in various image generation sub-tasks, among which conditional generation tasks such as text-guided image synthesis. Given the success of DDPMs in 2D generation, they have more recently been applied to 3D shape generation, outperforming previous approaches and reaching state-of-the-art results. However, 3D data pose additional challenges, such as the choice of the 3D representation, which impacts design choices and model efficiency. While reaching state-of-the-art results in generation quality, existing 3D DDPM works make little or no use of guidance, mainly being unconditional or class-conditional. In this work, we present IC3D, the first Image-Conditioned 3D Diffusion model that generates 3D shapes by image guidance. In particular, we propose IC3D as a solution to issues arising when applying neural networks for single-view 3D reconstruction. In fact, we will first study the single-view 3D reconstruction problem, reaching state-of-the-art results in reconstruction metrics. Then, we will analyze the limitations of 3D reconstruction losses and metrics, which lead to structural and realism problems in reconstructed shapes. Observing that a generative approach could solve these issues, we present IC3D as a potential solution. Being a generative model, IC3D needs to be conditioned to generate a shape matching the query image. To this end, we present and leverage CISP (Contrastive Image-Shape Pre-training), a model jointly embedding images and shapes by contrastive pre-training, inspired by text-to-image DDPM works. Our generative diffusion model outperforms the state-of-the-art in 3D generation quality and diversity, also obtaining satisfactory results in 3D reconstruction, even with the described issues in the metrics. Furthermore, we show that our generated shapes are preferred by human evaluators to a SoTA single-view 3D reconstruction model in terms of quality and coherence to the query image by running a side-by-side human evaluation.

Negli ultimi anni, i Denoising Diffusion Probabilistic Models (DDPM) hanno ottenuto risultati all'avanguardia in molti compiti generativi. In particolare, hanno raggiunto risultati impressionanti in task come la generazione condizionata di immagini partendo da un testo. Più recentemente, i DDPM sono stati applicati anche alla generazione di forme 3D. Lavorare con dati 3D pone ulteriori sfide, come la scelta della loro rappresentazione, che influisce sulle scelte di progettazione e sull'efficienza del modello. Nonostante le maggiori difficoltà, diversi DDPM 3D sono stati proposti e hanno raggiunto risultati superiori agli approcci precedenti. Tuttavia, i lavori esistenti su DDPM 3D generano forme in maniera totalmente incondizionata o, al più, condizionata sulla categoria d'appartenenza dell'oggetto desiderato. In questo lavoro presentiamo IC3D, il primo modello di diffusione 3D che genera forme sfruttando un’immagine come condizionamento. In particolare, proponiamo IC3D come soluzione ai problemi che sorgono nelle reti neurali per la ricostruzione 3D. Infatti, studieremo dapprima il problema della ricostruzione 3D da singola immagine, raggiungendo risultati allo stato dell'arte secondo le metriche di ricostruzione. Quindi, analizzeremo i limiti degli approcci di training di questi modelli e delle metriche utilizzate, che sono causa di problemi strutturali e di realismo nelle forme ricostruite. Osservando che un modello generativo, grazie alla sua natura, potrebbe risolvere questi problemi, presentiamo IC3D, con il duplice scopo di generare forme realistiche e allo stesso tempo coerenti con l'immagine data. Per condizionare il nostro modello, presentiamo CISP (Contrastive Image-Shape Pre-training), che incorpora congiuntamente immagini e forme in uno spazio di concetti imparato tramite i dati. Il nostro modello di diffusione supera lo stato dell'arte sulla generazione in termini di qualità e diversità, ottenendo risultati soddisfacenti anche in ricostruzione 3D, nonostante i problemi delle metriche evidenziati. Inoltre, mostriamo che valutatori umani preferiscono le forme generate dal nostro modello rispetto a quelle generati da un modello stato dell’arte di 3D reconstruction, sia per realismo che per coerenza rispetto all’immagine.

Single-view shape reconstruction via Image-Conditioned 3D diffusion

SBROLLI, CRISTIAN
2021/2022

Abstract

In the last years, Denoising Diffusion Probabilistic Models (DDPMs) obtained state-of-the-art results in many generative tasks, outperforming GANs and other classes of generative models. In particular, they reached impressive results in various image generation sub-tasks, among which conditional generation tasks such as text-guided image synthesis. Given the success of DDPMs in 2D generation, they have more recently been applied to 3D shape generation, outperforming previous approaches and reaching state-of-the-art results. However, 3D data pose additional challenges, such as the choice of the 3D representation, which impacts design choices and model efficiency. While reaching state-of-the-art results in generation quality, existing 3D DDPM works make little or no use of guidance, mainly being unconditional or class-conditional. In this work, we present IC3D, the first Image-Conditioned 3D Diffusion model that generates 3D shapes by image guidance. In particular, we propose IC3D as a solution to issues arising when applying neural networks for single-view 3D reconstruction. In fact, we will first study the single-view 3D reconstruction problem, reaching state-of-the-art results in reconstruction metrics. Then, we will analyze the limitations of 3D reconstruction losses and metrics, which lead to structural and realism problems in reconstructed shapes. Observing that a generative approach could solve these issues, we present IC3D as a potential solution. Being a generative model, IC3D needs to be conditioned to generate a shape matching the query image. To this end, we present and leverage CISP (Contrastive Image-Shape Pre-training), a model jointly embedding images and shapes by contrastive pre-training, inspired by text-to-image DDPM works. Our generative diffusion model outperforms the state-of-the-art in 3D generation quality and diversity, also obtaining satisfactory results in 3D reconstruction, even with the described issues in the metrics. Furthermore, we show that our generated shapes are preferred by human evaluators to a SoTA single-view 3D reconstruction model in terms of quality and coherence to the query image by running a side-by-side human evaluation.
CUDRANO, PAOLO
FROSI, MATTEO
ING - Scuola di Ingegneria Industriale e dell'Informazione
20-dic-2022
2021/2022
Negli ultimi anni, i Denoising Diffusion Probabilistic Models (DDPM) hanno ottenuto risultati all'avanguardia in molti compiti generativi. In particolare, hanno raggiunto risultati impressionanti in task come la generazione condizionata di immagini partendo da un testo. Più recentemente, i DDPM sono stati applicati anche alla generazione di forme 3D. Lavorare con dati 3D pone ulteriori sfide, come la scelta della loro rappresentazione, che influisce sulle scelte di progettazione e sull'efficienza del modello. Nonostante le maggiori difficoltà, diversi DDPM 3D sono stati proposti e hanno raggiunto risultati superiori agli approcci precedenti. Tuttavia, i lavori esistenti su DDPM 3D generano forme in maniera totalmente incondizionata o, al più, condizionata sulla categoria d'appartenenza dell'oggetto desiderato. In questo lavoro presentiamo IC3D, il primo modello di diffusione 3D che genera forme sfruttando un’immagine come condizionamento. In particolare, proponiamo IC3D come soluzione ai problemi che sorgono nelle reti neurali per la ricostruzione 3D. Infatti, studieremo dapprima il problema della ricostruzione 3D da singola immagine, raggiungendo risultati allo stato dell'arte secondo le metriche di ricostruzione. Quindi, analizzeremo i limiti degli approcci di training di questi modelli e delle metriche utilizzate, che sono causa di problemi strutturali e di realismo nelle forme ricostruite. Osservando che un modello generativo, grazie alla sua natura, potrebbe risolvere questi problemi, presentiamo IC3D, con il duplice scopo di generare forme realistiche e allo stesso tempo coerenti con l'immagine data. Per condizionare il nostro modello, presentiamo CISP (Contrastive Image-Shape Pre-training), che incorpora congiuntamente immagini e forme in uno spazio di concetti imparato tramite i dati. Il nostro modello di diffusione supera lo stato dell'arte sulla generazione in termini di qualità e diversità, ottenendo risultati soddisfacenti anche in ricostruzione 3D, nonostante i problemi delle metriche evidenziati. Inoltre, mostriamo che valutatori umani preferiscono le forme generate dal nostro modello rispetto a quelle generati da un modello stato dell’arte di 3D reconstruction, sia per realismo che per coerenza rispetto all’immagine.
File allegati
File Dimensione Formato  
Thesis_Sbrolli.pdf

Open Access dal 24/11/2023

Descrizione: Tesi
Dimensione 56.49 MB
Formato Adobe PDF
56.49 MB Adobe PDF Visualizza/Apri
Executive_Summary_Sbrolli.pdf

Open Access dal 24/11/2023

Descrizione: Executive Summary
Dimensione 11.82 MB
Formato Adobe PDF
11.82 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/201384