Neural scene rendering. Capturing and rendering realistic scenes in multi-view camera environments

Capturing and rendering dynamic tridimensional scenes is one of the main challenges in the computer graphics field, being considered as the natural future development for content sharing in social media and virtual reality ecosystems. Advances in computer visualization and the recent development of tools to support the perception of spatial relationships have shown how 3d representations provided advantages in learning, retention, and transfer activities. Tridimensional data allow the user to experience a greater level of interaction, being free to move along any desired path throughout the scene. Thanks to the increasing popularity of deep learning techniques aimed at the reconstruction of incomplete data, significant progress have been made in the synthesis of tridimensional scenes starting from a limited set of two-dimensional input data streams, overcoming the insufficient interactivity of light field videos and other direct approaches, which typically rely on constrained viewing conditions. Among those methods, volumetric and mesh-based representations reconstruction techniques either fail in modeling dynamic environments, given the complexity of recorded phenomena including occlusions, narrow structures, evolving topology, transparency, and biological motion, or encounter gradient optimization problems. Conversely, reconstruction techniques based on the synthesis of novel views often require a highly specialized capturing environment and an elevated number of cameras, while generally being able only to reproduce static scenes. We propose a novel approach for reconstructing a dynamic and photorealistic scene with a highly focused perspective on the initial setup feasibility. Our approach drastically reduces the number of input cameras by exploiting additional depth information coming from a depth sensor placed on each camera. We demonstrate our results can be compared with much more advanced systems, lowering the complexity of the hardware configuration while maintaining similar levels of detail. Our method is aided by an evaluation study providing the best initial setup of the scene, guided by the comparison of different camera parameters, such as field of view and relative distance to the center of the scene.

La possibilità di sintesi e di rappresentazione di modelli dinamici tridimensionali creati a partire da animazioni realistiche è una delle principali sfide nel campo della grafica digitale. Inoltre l’utilizzo di rappresentazioni tridimensionali può essere con- siderato come una naturale evoluzione delle dinamiche di condivisione di contenuti nei social media e negli ambienti di realtà virtuale. Grazie ai recenti progressi ot- tenuti con tecniche di visualizzazione digitale e strumentazioni adatte a supportare la percezione di realtà tridimensionali, è stato possibile dimostrare come le rappresen- tazioni 3d forniscano considerevoli vantaggi nelle attività legate ad apprendimento e memoria. La visualizzazione di dati tridimensionali consente infatti allo user di sperimentare un maggiore livello di interazione, dotandolo della libertà di spostarsi in posizioni arbitrarie all’interno della scena rappresentata. Inoltre, grazie al suc- cesso di tecniche di deep learning finalizzate alla ricostruzione dei dati, sono stati compiuti notevoli progressi nella sintesi di scene tridimensionali a partire da un in- sieme limitato di input bidimensionali, superando l’insufficiente interattività carat- terizzante i video plenottici e altri tecniche di rappresentazione diretta. Tuttavia, tecniche basate sulla rappresentazione di superfici incontrano problemi di ottimiz- zazione, mentre le tecniche di ricostruzione basate su rappresentazioni volumetriche spesso incontrano difficoltà nella modellazione di ambienti dinamici, data la comp- lessità dei fenomeni registrati comprendenti occlusioni, strutture complesse, topologie in evoluzione o trasparenze. Tecniche di novel view synthesis sono in grado di su- perare entrambe queste limitazioni ma spesso richiedono un ambiente di acquisizione altamente specializzato e un numero elevato di telecamere. Inoltre, queste tipologie di approcio sono generalmente in grado di riprodurre solamente scene statiche. In questo lavoro viene proposto un approccio innovativo per ricostruire scene dinamiche e fotorealistiche, mantenendo una prospettiva altamente focalizzata a garantire la re- alizzabilità dell’ambiente d’acquisizione. Il nostro metodo riduce considerevolmente il numero di telecamere in ingresso sfruttando informazioni aggiuntive provenienti da sensori di profondità posti su ogni telecamera. Viene dimostrato quindi come i nostri risultati possano essere confrontati con sistemi d’acquisizione molto più avan- zati, riducendo la complessità della configurazione hardware iniziale pur mantenendo livelli di risoluzione simili. Il nostro metodo è coadiuvato da uno studio preventivo di valutazione che fornisce la migliore configurazione iniziale della scena, guidata dal confronto di diversi parametri, come il campo visivo delle telecamere e la loro distanza relativa dal centro della scena.