Neural Cellular Automata are a recent evolution of a classic model that extends the Cellular Automata's computation with the expressive power of Deep Learning. Thanks to their flexibility, these models have been applied to many tasks, from content generation to artificial life. However, they have limitations related to their resource requirements, that prevent their widespread use. In this thesis, we propose the Latent Neural Cellular Automata, a new architecture to overcome this problem. In particular, we transfer the computation from the input space to a custom latent space using a pre-trained Autoencoder. This manifold is built by maximizing reconstruction fidelity and enforcing certain specific properties preparatory to the task. This shift lightens the model and optimizes the use of resources while keeping a versatile architecture for many tasks. We apply this model to Image Restoration, a long-standing task of Computer Vision, which focuses on recovering high-quality images from their corrupted counterparts, whose State of the Art is represented by Deep Learning architectures. Despite the slight decrease in performance, we notice a significant reduction in computational requirements. This reduction allows us to scale up the problem, with the same amount of occupied resources, to 16 times larger inputs than the latest Neural Cellular Automata architecture. In general, we believe that this innovative approach holds the potential to rejuvenate research on Neural Cellular Automata across various domains, due to the flexibility and reduced requirements of our solution.

I Neural Cellular Automata sono una recente evoluzione di un modello classico che estende la computazione dei Cellular Automata con la potenza espressiva del Deep Learning. Grazie alla loro flessibilità, questi modelli sono stati applicati in molti problemi, dalla generazione di contenuti alla vita artificiale. Tuttavia, presentano alcune limitazioni, principalmente legate ai loro requisiti in termini di risorse, che ne ostacolano la diffusione. In questa tesi, proponiamo i Latent Neural Cellular Automata, una nuova architettura per superare alcuni di questi problemi. In particolare, viene trasferita la computazione dallo spazio di input a uno spazio latente custom, attraverso un Autoencoder pre-allenato. Questo spazio è costruito massimizzando la fedeltà di ricostruzione e imponendo alcune proprietà specifiche propedeutiche al problema. Questo trasferimento alleggerisce il modello e ottimizza l'uso delle risorse, mantenendo un'architettura versatile per molti compiti. Applichiamo questo modello all'Image Restoration, un ambito di lunga data della Computer Vision, che si concentra sul restauro di immagini di alta qualità a partire dalle loro controparti corrotte, il cui attuale stato dell'arte è rappresentato dalle architetture basate sul Deep Learning. Nonostante la leggera diminuzione delle prestazioni, notiamo una significativa riduzione dei requisiti. Questa riduzione ci permette di scalare il problema, con la stessa quantità di risorse occupate, a input 16 volte più grandi rispetto alla più recente architettura basata su Neural Cellular Automata. In generale, riteniamo che questo approccio innovativo abbia il potenziale per rinnovare l'interesse nella ricerca sui Neural Cellular Automata in vari ambiti, grazie alla flessibilità e alla riduzione dei requisiti della nostra soluzione.

Image restoration via Latent Neural Cellular Automata

Menta, Andrea
2022/2023

Abstract

Neural Cellular Automata are a recent evolution of a classic model that extends the Cellular Automata's computation with the expressive power of Deep Learning. Thanks to their flexibility, these models have been applied to many tasks, from content generation to artificial life. However, they have limitations related to their resource requirements, that prevent their widespread use. In this thesis, we propose the Latent Neural Cellular Automata, a new architecture to overcome this problem. In particular, we transfer the computation from the input space to a custom latent space using a pre-trained Autoencoder. This manifold is built by maximizing reconstruction fidelity and enforcing certain specific properties preparatory to the task. This shift lightens the model and optimizes the use of resources while keeping a versatile architecture for many tasks. We apply this model to Image Restoration, a long-standing task of Computer Vision, which focuses on recovering high-quality images from their corrupted counterparts, whose State of the Art is represented by Deep Learning architectures. Despite the slight decrease in performance, we notice a significant reduction in computational requirements. This reduction allows us to scale up the problem, with the same amount of occupied resources, to 16 times larger inputs than the latest Neural Cellular Automata architecture. In general, we believe that this innovative approach holds the potential to rejuvenate research on Neural Cellular Automata across various domains, due to the flexibility and reduced requirements of our solution.
ARCHETTI, ALBERTO
ING - Scuola di Ingegneria Industriale e dell'Informazione
5-ott-2023
2022/2023
I Neural Cellular Automata sono una recente evoluzione di un modello classico che estende la computazione dei Cellular Automata con la potenza espressiva del Deep Learning. Grazie alla loro flessibilità, questi modelli sono stati applicati in molti problemi, dalla generazione di contenuti alla vita artificiale. Tuttavia, presentano alcune limitazioni, principalmente legate ai loro requisiti in termini di risorse, che ne ostacolano la diffusione. In questa tesi, proponiamo i Latent Neural Cellular Automata, una nuova architettura per superare alcuni di questi problemi. In particolare, viene trasferita la computazione dallo spazio di input a uno spazio latente custom, attraverso un Autoencoder pre-allenato. Questo spazio è costruito massimizzando la fedeltà di ricostruzione e imponendo alcune proprietà specifiche propedeutiche al problema. Questo trasferimento alleggerisce il modello e ottimizza l'uso delle risorse, mantenendo un'architettura versatile per molti compiti. Applichiamo questo modello all'Image Restoration, un ambito di lunga data della Computer Vision, che si concentra sul restauro di immagini di alta qualità a partire dalle loro controparti corrotte, il cui attuale stato dell'arte è rappresentato dalle architetture basate sul Deep Learning. Nonostante la leggera diminuzione delle prestazioni, notiamo una significativa riduzione dei requisiti. Questa riduzione ci permette di scalare il problema, con la stessa quantità di risorse occupate, a input 16 volte più grandi rispetto alla più recente architettura basata su Neural Cellular Automata. In generale, riteniamo che questo approccio innovativo abbia il potenziale per rinnovare l'interesse nella ricerca sui Neural Cellular Automata in vari ambiti, grazie alla flessibilità e alla riduzione dei requisiti della nostra soluzione.
File allegati
File Dimensione Formato  
Thesis.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Thesis
Dimensione 20.79 MB
Formato Adobe PDF
20.79 MB Adobe PDF   Visualizza/Apri
Executive_Summary.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Executive Summary
Dimensione 525.6 kB
Formato Adobe PDF
525.6 kB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/210780