Pareto-optimal progressive neural architecture search

Designing neural network architectures involves a series of criticisms, ranging from the unpredictable human efforts gone into fine-tuning them to a not granted intuition into how to design them to achieve a good accuracy. Neural Architecture Search (NAS) is the process of automating architecture engineering, searching for the best machine learning model. One of the main NAS approaches proposed in the literature relies on an already trained controller based on a Recurrent Neural Network (RNN) to explore the neural networks search space by: i) using a configuration string to encode the architectures, ii) training the candidate models, iii) evaluating their accuracy. At each step, the controller parameters are updated based on the trained networks accuracy, exploiting reinforcement learning. Progressive Neural Architecture Search (PNAS) seeks a more efficient method, searching for the architectures in order of increasing complexity with a sequential model-based optimization strategy: it defines a common recursive structure to generate the networks, whose number of building blocks rises through iterations. However, those algorithms are generally designed for an ideal setting, without taking into account the needs and the technical constraints of an ordinary user. In this thesis, we propose a new architecture search called Pareto-Optimal Progressive Neural Architecture Search (POPNAS), that combines the benefits of PNAS to a time-accuracy optimization problem. POPNAS adds a new time predictor to the existing RNN controller, in order to carry out a joint prediction of time and accuracy for each candidate neural network, searching through the Pareto front. This approach allows us to reach a trade-off between accuracy and training time, identifying neural network architectures with good accuracy in the face of a drastically reduced training time.

Progettare l’architettura di reti neurali comporta una serie di punti critici, che spaziano dalla impredicibilità della quantità di impegno umano necessario per perfezionarle, all’intuito non garantito per una progettazione capace di ottenere una buona accuratezza. La Ricerca di Architetture Neurali (RAN) è il processo di automatizzazione della progettazione di architetture, per l’ottenimento del miglior modello per un problema di apprendimento. Uno dei più importanti approcci della RAN proposti nella letteratura si basa su una rete neurale ricorrente già addestrata in qualità di controllore che esplora lo spazio di ricerca addestrando i modelli candidati per valutare la loro accuratezza. A ogni step, i parametri del controllore vengono aggiornati in base all’accuratezza delle reti addestrate, sfruttando l’apprendimento per rinforzo. Con una strategia di ottimizzazione basata su modelli sequenziali, la Ricerca di Architetture Neurali Progressiva (RANP) individua un metodo più efficiente di ricerca delle architetture in ordine di complessità crescente: la RANP definisce una struttura ricorsiva comune per generare le reti, il cui numero di componenti cresce col proseguire delle iterazioni. Tuttavia, questi algoritmi vengono in genere progettati per condizioni ideali, senza prendere in considerazione le necessità e i limiti tecnici di un normale utente. In questa tesi, proponiamo una nuova ricerca di architetture denominata Ricerca di Architetture Neurali Pareto-Ottimale Progressiva (RANPOP), che combina i benefici della RANP a un problema di ottimizzazione multi-obiettivo che considera come dimensioni il tempo e l’accuratezza. La RANPOP aggiunge un nuovo predittore temporale al controller già esistente per condurre una previsione congiunta di tempo e accuratezza per ogni rete neurale candidata, effettuando una ricerca lungo il fronte di Pareto. Questo approccio ci permette di raggiungere un compromesso tra l’accuratezza e il tempo di addestramento, identificando architetture di reti neurali con una buona accuratezza a fronte di un tempo di addestramento drasticamente ridotto.