RE-CAD: a reverse engineering pipeline to convert multi-view images into CAD command sequences

This thesis contributes to the evolving field of AI-driven computer vision and reverse engineering, building upon the foundational work set by ARE-Net and DeepCAD projects. It enhances the capabilities of generative convolution neural networks in transforming multi-view images into editable CAD command sequences. Central to this research is the development of a reverse engineering pipeline that addresses a critical limitation of existing models, which directly generate non-editable 3D models, by focusing on generating the essence of 3D shapes---the drawing process. To combat the prevalent issue of data scarcity, a specialized multi-view dataset featuring realistic imaging conditions was synthesized using HDRI lighting and ray tracing through Blender’s API, offering two variants: one with plain black backgrounds to focus on objects’ features, and another with dynamic random backgrounds to simulate real-life scenarios. The developed pipeline employs a pretrained ResNet-18 encoder to convert images into latent vectors, which a GRU pooler aggregates into a single vector per object, that is subsequently transformed into CAD command sequences through the DeepCAD generative decoder. Despite meticulous hyperparameters optimization via two comprehensive Optuna library search studies, initial results fell short of the expected accuracy levels due to computational constraints limiting the training process. However, further rigorous analysis suggest that with adequate training, the network has the potential to perform robustly. This thesis not only deepens the understanding of generative networks within the scope of CAD models generation but also lays a strong foundation for future research, encouraging extended training and enhanced computational resources to fully leverage the developed network architecture.

Questa tesi contribuisce all'evoluzione del campo della visione artificiale e del reverse engineering, basandosi sul lavoro fondamentale dei progetti ARE-Net e DeepCAD. Migliora le capacità delle reti neurali a convoluzione generativa nel trasformare immagini multi-vista in sequenze di comandi CAD modificabili. Al centro di questa ricerca c'è lo sviluppo di una pipeline di reverse engineering che affronta una limitazione critica dei modelli esistenti, che generano direttamente modelli 3D non modificabili, concentrandosi sulla generazione dell'essenza delle forme 3D: il processo di disegno. Per combattere il problema prevalente della scarsità di dati, è stato sintetizzato un set di dati multi-vista specializzato, caratterizzato da condizioni di immagine realistiche, utilizzando l'illuminazione HDRI e il ray-tracing attraverso le API di Blender, offrendo due varianti: una con sfondi neri semplici per concentrarsi sulle caratteristiche degli oggetti e un'altra con sfondi dinamici casuali per simulare gli scenari della vita reale. La pipeline sviluppata impiega un codificatore ResNet-18 preaddestrato per convertire le immagini in vettori latenti, che un pooler GRU aggrega in un singolo vettore per oggetto, successivamente trasformato in sequenze di comandi CAD attraverso il decodificatore generativo DeepCAD. Nonostante la meticolosa ottimizzazione degli iperparametri attraverso due studi di ricerca della libreria Optuna, i risultati iniziali sono stati inferiori ai livelli di accuratezza previsti a causa dei vincoli computazionali che limitavano il processo di addestramento. Tuttavia, ulteriori analisi rigorose suggeriscono che, con un addestramento adeguato, la rete ha il potenziale per funzionare in modo robusto. Questa tesi non solo approfondisce la comprensione delle reti generative nell'ambito della generazione di modelli CAD, ma pone anche solide basi per la ricerca futura, incoraggiando un addestramento più esteso e risorse computazionali migliori per sfruttare appieno l'architettura di rete sviluppata.