Today, artificial neural networks are the state-of-the-art machine learning models for solving a large variety of complex tasks, especially image classification. Research into Neural Architecture Search (NAS) techniques, which automate the design of deep neural networks, has also grown rapidly in recent years. Among the latest NAS techniques are Once-For-All (OFA) and Neural Architecture Transfer (NAT). Although they take different approaches, their main goal is the same: to avoid having to perform a complete and expensive NAS process every time it becomes necessary to find a new specialised network. With the aim of improving NAT, which is itself partially based on OFA, this thesis is developed along three works. Firstly, a new technique for training and optimising early-exit neural networks is proposed. Called Anticipate, Ensemble and Prune (AEP), it works by creating a weighted ensemble of the network's multiple exits. Extensive testing has shown that the AEP technique can provide accuracy improvements of up to 15%, in terms of average percentage change over to results obtained by the corresponding single-exit networks trained under the same initial conditions, while reducing the number of parameters by up to 41%, the number of operations by up to 18%, and latency by up to 16.3%. Secondly, OFAv2 is presented, an extension of OFA that aims to improve performance while maintaining its computationally advantageous approach to NAS. The OFAv2 networks and algorithms support the presence of new architectural designs and components such as early exits, parallel blocks and dense skip connections. To properly train the modified networks, the OFA training algorithm has been extended with two new steps called Elastic Level and Elastic Exit. Furthermore, a new AEP-based ensemble knowledge distillation technique is presented, and an improved teacher network selection strategy is proposed. With these modifications, the accuracy of OFAv2 networks on the Tiny ImageNet dataset increased by up to 12% compared to the original version of OFA. Finally, NATv2 extends NAT to allow it to use of any of the OFAv2 supernets as starting points. A revised methodology for sampling subnets and managing the archive of best architectures has been implemented, complemented by a new pre-processing step. Two alternative post-processing steps have also been introduced, one of which is based on the AEP technique. Compared to the best subnets found by NAT using the OFA supernet, those resulting from the application of NATv2 to the OFAv2 supernets achieve in far superior performance. In addition to a significant reduction in the number of parameters, operations and latency, accuracy increased by 2.3% on CIFAR-10, by 5% on CIFAR-100 and by 12% on Tiny ImageNet, among the other datasets.

Al giorno d'oggi le reti neurali artificiali sono, tra i modelli di machine learning, lo stato dell'arte per la risoluzione di una grande varietà di problemi complessi, tra cui quello della classificazione di immagini. La ricerca nell'ambito delle tecniche di Neural Architecture Search (NAS), che automatizzano la progettazione di reti neurali, è cresciuta rapidamente negli ultimi anni, e tra le più recenti tecniche di NAS vi sono Once-For-All (OFA) e Neural Architecture Transfer (NAT). Sebbene adottino approcci diversi, entrambe mirano a raggiungere un obiettivo: evitare di dover eseguire un completo, e costoso processo di NAS, ogni qual volta si renda necessario trovare una nuova rete specializzata. Questa tesi che ha l'obiettivo di migliorare NAT, che è parzialmente basato su OFA, si sviluppa su tre lavori. Per prima cosa viene proposta una nuova tecnica per l'addestramento e l'ottimizzazione di reti neurali con uscite anticipate. Questa tecnica, denominata Anticipate, Ensemble and Prune (AEP), funziona creando un ensemble pesato delle uscite presenti nella rete. Una lunga serie di test ha dimostrato che utilizzando AEP si possono ottenere miglioramenti in accuratezza fino al 15%, in termini di variazione percentuale media rispetto ai risultati ottenuti dalle corrispondenti reti a uscita singola addestrate a partire dalle stesse condizioni iniziali, riducendo al contempo il numero di parametri fino al 41%, di operazioni fino al 18% e di latenza fino al 16,3%. Successivamente viene presentato OFAv2, un'estensione di OFA che mira a migliorarne le prestazioni mantenendone l'approccio computazionalmente vantaggioso all'esecuzione di NAS. Le reti e gli algoritmi di OFAv2 supportano la presenza di nuovi design e componenti architetturali, tra cui le uscite anticipate, blocchi paralleli e connessioni residuali dense. Per addestrare correttamente le superreti modificate, l'algoritmo di OFA è stato arricchito con due nuovi step chiamati Elastic Level e Elastic Exit. Vengono inoltre presentate ed utilizzate sia una nuova tecnica di knowledge distillaton basata su AEP, che una migliore strategia per migliorare la selezione della rete insegnante. Con queste modifiche, l'accuratezza delle reti di OFAv2 sul dataset Tiny ImageNet è aumentata fino al 12% rispetto a quella raggiunta utilizzando la versione originale di OFA. Infine viene proposto NATv2, un'estensione di NAT atta a permettere l'utilizzo di una qualsiasi delle nuove superreti di OFAv2 come punto di partenza per la ricerca. In NATv2 è stata rivista sia la metodologia utilizzata per il campionamento delle sottoreti, complementata da un nuovo step di pre-elaborazione, che la modalità utilizzata per la gestione dell'archivio contenente le migliori architetture. Sono state anche introdotte due nuovi step alternativi di post-elaborazione, uno dei quali basato sulla tecnica AEP. Rispetto alle migliori sottoreti trovate utilizzando NAT sulla superrete standard di OFA, quelle risultanti dall'applicazione di NATv2 alle superreti di OFAv2 possono raggiungere prestazioni nettamente superiori. Nello specifio, oltre ad una significativa riduzione del numero di parametri, di operazioni e di latenza, l'accuratezza è aumentata fino al 2.3% su CIFAR-10, al 5% su CIFAR-100 e al 12% su Tiny ImageNet.

A Journey to Improve Neural Architecture Search: Advancements in Neural Architecture Transfer and Once-For-All

Sarti, Simone
2021/2022

Abstract

Today, artificial neural networks are the state-of-the-art machine learning models for solving a large variety of complex tasks, especially image classification. Research into Neural Architecture Search (NAS) techniques, which automate the design of deep neural networks, has also grown rapidly in recent years. Among the latest NAS techniques are Once-For-All (OFA) and Neural Architecture Transfer (NAT). Although they take different approaches, their main goal is the same: to avoid having to perform a complete and expensive NAS process every time it becomes necessary to find a new specialised network. With the aim of improving NAT, which is itself partially based on OFA, this thesis is developed along three works. Firstly, a new technique for training and optimising early-exit neural networks is proposed. Called Anticipate, Ensemble and Prune (AEP), it works by creating a weighted ensemble of the network's multiple exits. Extensive testing has shown that the AEP technique can provide accuracy improvements of up to 15%, in terms of average percentage change over to results obtained by the corresponding single-exit networks trained under the same initial conditions, while reducing the number of parameters by up to 41%, the number of operations by up to 18%, and latency by up to 16.3%. Secondly, OFAv2 is presented, an extension of OFA that aims to improve performance while maintaining its computationally advantageous approach to NAS. The OFAv2 networks and algorithms support the presence of new architectural designs and components such as early exits, parallel blocks and dense skip connections. To properly train the modified networks, the OFA training algorithm has been extended with two new steps called Elastic Level and Elastic Exit. Furthermore, a new AEP-based ensemble knowledge distillation technique is presented, and an improved teacher network selection strategy is proposed. With these modifications, the accuracy of OFAv2 networks on the Tiny ImageNet dataset increased by up to 12% compared to the original version of OFA. Finally, NATv2 extends NAT to allow it to use of any of the OFAv2 supernets as starting points. A revised methodology for sampling subnets and managing the archive of best architectures has been implemented, complemented by a new pre-processing step. Two alternative post-processing steps have also been introduced, one of which is based on the AEP technique. Compared to the best subnets found by NAT using the OFA supernet, those resulting from the application of NATv2 to the OFAv2 supernets achieve in far superior performance. In addition to a significant reduction in the number of parameters, operations and latency, accuracy increased by 2.3% on CIFAR-10, by 5% on CIFAR-100 and by 12% on Tiny ImageNet, among the other datasets.
LOMURNO, EUGENIO
ING - Scuola di Ingegneria Industriale e dell'Informazione
4-mag-2023
2021/2022
Al giorno d'oggi le reti neurali artificiali sono, tra i modelli di machine learning, lo stato dell'arte per la risoluzione di una grande varietà di problemi complessi, tra cui quello della classificazione di immagini. La ricerca nell'ambito delle tecniche di Neural Architecture Search (NAS), che automatizzano la progettazione di reti neurali, è cresciuta rapidamente negli ultimi anni, e tra le più recenti tecniche di NAS vi sono Once-For-All (OFA) e Neural Architecture Transfer (NAT). Sebbene adottino approcci diversi, entrambe mirano a raggiungere un obiettivo: evitare di dover eseguire un completo, e costoso processo di NAS, ogni qual volta si renda necessario trovare una nuova rete specializzata. Questa tesi che ha l'obiettivo di migliorare NAT, che è parzialmente basato su OFA, si sviluppa su tre lavori. Per prima cosa viene proposta una nuova tecnica per l'addestramento e l'ottimizzazione di reti neurali con uscite anticipate. Questa tecnica, denominata Anticipate, Ensemble and Prune (AEP), funziona creando un ensemble pesato delle uscite presenti nella rete. Una lunga serie di test ha dimostrato che utilizzando AEP si possono ottenere miglioramenti in accuratezza fino al 15%, in termini di variazione percentuale media rispetto ai risultati ottenuti dalle corrispondenti reti a uscita singola addestrate a partire dalle stesse condizioni iniziali, riducendo al contempo il numero di parametri fino al 41%, di operazioni fino al 18% e di latenza fino al 16,3%. Successivamente viene presentato OFAv2, un'estensione di OFA che mira a migliorarne le prestazioni mantenendone l'approccio computazionalmente vantaggioso all'esecuzione di NAS. Le reti e gli algoritmi di OFAv2 supportano la presenza di nuovi design e componenti architetturali, tra cui le uscite anticipate, blocchi paralleli e connessioni residuali dense. Per addestrare correttamente le superreti modificate, l'algoritmo di OFA è stato arricchito con due nuovi step chiamati Elastic Level e Elastic Exit. Vengono inoltre presentate ed utilizzate sia una nuova tecnica di knowledge distillaton basata su AEP, che una migliore strategia per migliorare la selezione della rete insegnante. Con queste modifiche, l'accuratezza delle reti di OFAv2 sul dataset Tiny ImageNet è aumentata fino al 12% rispetto a quella raggiunta utilizzando la versione originale di OFA. Infine viene proposto NATv2, un'estensione di NAT atta a permettere l'utilizzo di una qualsiasi delle nuove superreti di OFAv2 come punto di partenza per la ricerca. In NATv2 è stata rivista sia la metodologia utilizzata per il campionamento delle sottoreti, complementata da un nuovo step di pre-elaborazione, che la modalità utilizzata per la gestione dell'archivio contenente le migliori architetture. Sono state anche introdotte due nuovi step alternativi di post-elaborazione, uno dei quali basato sulla tecnica AEP. Rispetto alle migliori sottoreti trovate utilizzando NAT sulla superrete standard di OFA, quelle risultanti dall'applicazione di NATv2 alle superreti di OFAv2 possono raggiungere prestazioni nettamente superiori. Nello specifio, oltre ad una significativa riduzione del numero di parametri, di operazioni e di latenza, l'accuratezza è aumentata fino al 2.3% su CIFAR-10, al 5% su CIFAR-100 e al 12% su Tiny ImageNet.
File allegati
File Dimensione Formato  
Executive_Summary_sarti.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: executive summary
Dimensione 884.46 kB
Formato Adobe PDF
884.46 kB Adobe PDF   Visualizza/Apri
Tesi_sarti.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: tesi
Dimensione 4.44 MB
Formato Adobe PDF
4.44 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/203273