The creation of 3D models has long been a central focus in computer graphics, with decades of research dedicated to advancing the field. The introduction of sophisticated neural networks and generative models has accelerated progress, making it possible to gen- erate increasingly realistic and diverse 3D content. Generating high-quality 3D content has a wide range of applications, such as computer graphics, gaming, and virtual reality. To achieve this, several generative approaches have been investigated, including genera- tive adversarial networks, variational autoencoders, normalizing flows, and autoregressive models. Diffusion models have recently gained prominence, demonstrating exceptional performance in the 2D image domain and surpassing other generative techniques. De- spite their remarkable success in 2D applications, achieving comparable advancements in 3D remains an ongoing challenge. In fact, dealing with 3D data requires careful consid- eration, especially when choosing the appropriate 3D representation, as it directly affects design choices and the training efficiency of a model. In this work, we initially explore symmetry-aware generative architectures designed to leverage the inherent equivariances and permutation symmetries present in 3D shape representations. While theoretically promising, these approaches presented practical dif- ficulties during integration with diffusion pipelines and ultimately did not surpass simpler baselines in generation quality. Motivated by these challenges, we developed a scalable and efficient two-stage generative pipeline based on latent diffusion. Our approach first employs a variational autoencoder to encode input neural networks representing 3D surfaces into a regularized latent space, allowing for effective sampling and decoding of novel shapes. A latent diffusion model then learns to map this latent space into a standard Gaussian distribution, enabling generation from pure noise in the compressed latent domain. Our final model achieves results comparable to state-of-the-art methods in terms of gen- eration quality and diversity, while using at least an order of magnitude fewer parameters. This demonstrates the potential of latent diffusion models for 3D data generation.

La creazione di modelli 3D è da tempo un tema centrale nella computer grafica. L’introduzione di reti neurali e di modelli generativi ne ha accelerato lo sviluppo, rendendo possibile la generazione di contenuti 3D sempre più realistici e diversificati. La generazione di con- tenuti 3D di ha numerose applicazioni, tra cui la computer grafica, il gaming e la realtà virtuale. Per raggiungere questo obiettivo, sono stati studiati diversi approcci generativi, come le generative adversarial networks, i variational autoencoders e i modelli autoregres- sivi. I modelli di diffusione hanno recentemente acquisito grande rilevanza, mostrando prestazioni eccezionali nel dominio delle immagini 2D e superando altre tecniche gener- ative. Nonostante il loro successo nelle applicazioni 2D, ottenere risultati comparabili nel 3D rappresenta ancora una sfida aperta. Infatti, il trattamento dei dati 3D richiede un’attenta considerazione, in particolare nella scelta della rappresentazione più adatta, poiché questa influisce direttamente sulle scelte progettuali e sull’addestramento del mod- ello. In questo lavoro, esploriamo inizialmente architetture generative, progettate per sfruttare le simmetrie per permutazione intrinseche alle rappresentazioni implicite delle forme 3D. Sebbene promettenti dal punto di vista teorico, questi approcci hanno mostrato difficoltà pratiche nell’integrazione con pipeline basate sulla diffusione. Motivati da queste difficoltà, abbiamo sviluppato una pipeline generativa a due stadi, scalabile ed efficiente, basata sulla diffusione latente. Il nostro approccio impiega inizialmente un autoencoder variazionale per codificare le reti neurali che rappresentano le superfici 3D in uno spazio latente, permettendo il campionamento e la decodifica di nuove forme. In seguito, un modello di diffusione apprende a mappare questo spazio latente in una distribuzione gaussiana standard, consentendo la generazione a partire da puro rumore. Il nostro modello finale raggiunge risultati paragonabili allo stato dell’arte in termini di qualità e diversità della generazione, utilizzando tuttavia almeno un ordine di grandezza in meno nel numero di parametri. Questo dimostra il potenziale dei modelli di diffusione latente per la generazione di dati 3D.

Exploring diffusion-based approaches for the generation of Implicit 3D representations

Tripodi, Riccardo
2024/2025

Abstract

The creation of 3D models has long been a central focus in computer graphics, with decades of research dedicated to advancing the field. The introduction of sophisticated neural networks and generative models has accelerated progress, making it possible to gen- erate increasingly realistic and diverse 3D content. Generating high-quality 3D content has a wide range of applications, such as computer graphics, gaming, and virtual reality. To achieve this, several generative approaches have been investigated, including genera- tive adversarial networks, variational autoencoders, normalizing flows, and autoregressive models. Diffusion models have recently gained prominence, demonstrating exceptional performance in the 2D image domain and surpassing other generative techniques. De- spite their remarkable success in 2D applications, achieving comparable advancements in 3D remains an ongoing challenge. In fact, dealing with 3D data requires careful consid- eration, especially when choosing the appropriate 3D representation, as it directly affects design choices and the training efficiency of a model. In this work, we initially explore symmetry-aware generative architectures designed to leverage the inherent equivariances and permutation symmetries present in 3D shape representations. While theoretically promising, these approaches presented practical dif- ficulties during integration with diffusion pipelines and ultimately did not surpass simpler baselines in generation quality. Motivated by these challenges, we developed a scalable and efficient two-stage generative pipeline based on latent diffusion. Our approach first employs a variational autoencoder to encode input neural networks representing 3D surfaces into a regularized latent space, allowing for effective sampling and decoding of novel shapes. A latent diffusion model then learns to map this latent space into a standard Gaussian distribution, enabling generation from pure noise in the compressed latent domain. Our final model achieves results comparable to state-of-the-art methods in terms of gen- eration quality and diversity, while using at least an order of magnitude fewer parameters. This demonstrates the potential of latent diffusion models for 3D data generation.
CUDRANO, PAOLO
SBROLLI, CRISTIAN
ING - Scuola di Ingegneria Industriale e dell'Informazione
22-lug-2025
2024/2025
La creazione di modelli 3D è da tempo un tema centrale nella computer grafica. L’introduzione di reti neurali e di modelli generativi ne ha accelerato lo sviluppo, rendendo possibile la generazione di contenuti 3D sempre più realistici e diversificati. La generazione di con- tenuti 3D di ha numerose applicazioni, tra cui la computer grafica, il gaming e la realtà virtuale. Per raggiungere questo obiettivo, sono stati studiati diversi approcci generativi, come le generative adversarial networks, i variational autoencoders e i modelli autoregres- sivi. I modelli di diffusione hanno recentemente acquisito grande rilevanza, mostrando prestazioni eccezionali nel dominio delle immagini 2D e superando altre tecniche gener- ative. Nonostante il loro successo nelle applicazioni 2D, ottenere risultati comparabili nel 3D rappresenta ancora una sfida aperta. Infatti, il trattamento dei dati 3D richiede un’attenta considerazione, in particolare nella scelta della rappresentazione più adatta, poiché questa influisce direttamente sulle scelte progettuali e sull’addestramento del mod- ello. In questo lavoro, esploriamo inizialmente architetture generative, progettate per sfruttare le simmetrie per permutazione intrinseche alle rappresentazioni implicite delle forme 3D. Sebbene promettenti dal punto di vista teorico, questi approcci hanno mostrato difficoltà pratiche nell’integrazione con pipeline basate sulla diffusione. Motivati da queste difficoltà, abbiamo sviluppato una pipeline generativa a due stadi, scalabile ed efficiente, basata sulla diffusione latente. Il nostro approccio impiega inizialmente un autoencoder variazionale per codificare le reti neurali che rappresentano le superfici 3D in uno spazio latente, permettendo il campionamento e la decodifica di nuove forme. In seguito, un modello di diffusione apprende a mappare questo spazio latente in una distribuzione gaussiana standard, consentendo la generazione a partire da puro rumore. Il nostro modello finale raggiunge risultati paragonabili allo stato dell’arte in termini di qualità e diversità della generazione, utilizzando tuttavia almeno un ordine di grandezza in meno nel numero di parametri. Questo dimostra il potenziale dei modelli di diffusione latente per la generazione di dati 3D.
File allegati
File Dimensione Formato  
2025_07_Tripodi_Tesi.pdf

accessibile in internet per tutti

Descrizione: Tesi
Dimensione 5.73 MB
Formato Adobe PDF
5.73 MB Adobe PDF Visualizza/Apri
2025_07_Tripodi_Executive_Summary.pdf

accessibile in internet per tutti

Descrizione: Excecutive Summary
Dimensione 873.33 kB
Formato Adobe PDF
873.33 kB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/240290