POMONAG: Pareto Optimal Many Objective Neural Architecture Generator

In the rapidly evolving landscape of Artificial Intelligence, the field of Neural Architecture Search (NAS) has emerged as a critical area of study, aimed at automating the design of neural network architectures to optimize their performance across various tasks. Traditionally, NAS methods have focused on identifying the best neural network architectures for a specific dataset. This approach, while effective, fails to utilize knowledge gained from previous searches on different datasets, limiting the potential for NAS models to generalize across tasks. Addressing this challenge, we introduce POMONAG (Pareto Optimal Many Objective Neural Architecture Generator), a novel framework that extends the boundaries of NAS by adopting a Many Objective generative approach. By employing a generative model leveraging diffusion processes and by integrating Pareto optimality principles, POMONAG generates and evaluates neural architectures across diverse criteria—accuracy, computational efficiency, inference time, and parameter count—to produce models that are finely tuned for any given dataset without the need of retraining. Our results demonstrate POMONAG's ability to originate architectures that not only excel in accuracy but are also optimized for computational resources. This is achieved through methodological innovations, including the transition to a Many Objective paradigm, the introduction of Pareto optimality, the formulation of an enhanced Meta-Dataset, and refinements to the surrogate model used for prediction. POMONAG's contributions lay the groundwork for future foundational models in NAS and computer vision. By decoupling the task at hand, such as classification, from specific datasets, POMONAG eliminates the need for additional trainings typical of traditional NAS techniques. This breakthrough paves the way for the development of general-purpose models for computer vision tasks, mirroring the transformative trajectory of language models.

Nel panorama in rapida evoluzione dell'Intelligenza Artificiale, il campo della Neural Architecture Search (NAS) si è affermato come un'area di studio fondamentale, mirata all'automazione della progettazione delle architetture di reti neurali per ottimizzare le loro prestazioni in vari tasks. Tradizionalmente, i metodi NAS si sono concentrati sull'identificazione della migliore architettura per un dataset specifico. Questo approccio, sebbene efficace, non sfrutta le conoscenze acquisite da ricerche precedenti su dataset diversi, limitando così il potenziale di generalizzazione dei modelli NAS per dataset differenti. Affrontando questa sfida, introduciamo POMONAG (Pareto Optimal Many Objective Neural Architecture Generator), un nuovo framework che estende i confini di NAS adottando un approccio generativo Many Objective. Impiegando un modello generativo che sfrutta i processi di diffusione e adottando l'ottimalità di Pareto, POMONAG genera e valuta le architetture neurali secondo criteri diversi—accuratezza, efficienza computazionale, tempo di inferenza e numero di parametri—per produrre modelli calibrati per qualsiasi dataset fornito senza bisogno di ulteriori fasi di training. I risultati ottenuti evidenziano l'efficacia di POMONAG nel generare architetture che si distinguono non soltanto per l'accuratezza ma anche per l'ottimizzazione nell'uso delle risorse computazionali. Ciò è reso possibile attraverso innovazioni metodologiche, inclusa la transizione a un paradigma Many Objective, l'introduzione dell'ottimalità di Pareto, la formulazione di un Meta-Dataset migliorato ai fini dell'addestramento e i perfezionamenti al modello predittivo utilizzato nella generazione. I contributi di POMONAG gettano le basi per futuri modelli fondamentali in NAS e nella Computer Vision. Disaccoppiando il task in questione, come la classificazione di immagini, dallo specifico dataset, POMONAG elimina la necessità di ulteriori addestramenti tipici delle tecniche tradizionali di NAS. POMONAG apre la via allo sviluppo di modelli general-purpose per la Computer Vision, riflettendo la traiettoria trasformativa dei modelli linguistici.