In this work, we tackle the AIMPS (Agent–Inference Method–Parameter Selection) problem for agentic AI systems, where multiple heterogeneous models cooperate to execute multi-task pipelines. The heterogeneity among these models gives rise to a complex decision-making problem in which an Orchestrator must select the most appropriate agent, inference method, and parameter configuration in order to maximize performance while respecting resource budgets. This challenge is further complicated by the significant variability in execution time and energy consumption associated with each possible combination. As a baseline, we consider a deterministic solver that relies on the expected time and energy values of each configuration. However, this approach proves to be limited, resulting in a relatively high constraint violation rate (approximately 9%). To address this issue, we introduce a Reinforcement Learning (RL) framework that leverages interaction with the environment to learn and adapt to the uncertainty in resource usage estimates. This approach substantially reduces resource overuse (to around 2%) while maintaining high accuracy. Finally, we extend the framework to a multi-agent configuration, analyzing how different reward formulations impact learning dynamics and performance across single-agent and multi-agent settings.

In questo lavoro formalizziamo il problema denominato AIMPS (Agent–Inference Method–Parameter Selection) per sistemi di Agentic AI nei quali, modelli eterogenei collaborano all’esecuzione di pipeline multi-task. L’eterogeneità dei modelli genera un complesso problema decisionale: un Orchestrator deve selezionare, tra le diverse configurazioni possibili, quelle che consentono di massimizzare le prestazioni senza violare i vincoli sulle risorse disponibili. Tale sfida è ulteriormente aggravata dalla significativa variabilità nelle stime di consumo di tempo ed energia associate a ciascuna combinazione. Come baseline proponiamo un approccio deterministico che risolve il problema utilizzando i valori attesi di tempo ed energia per ogni configurazione. Tuttavia, questo metodo evidenzia importanti limitazioni, traducendosi in un tasso di violazione dei vincoli relativamente elevato (circa il 9%). Successivamente introduciamo un framework di Reinforcement Learning, in cui, l’agente apprende interagendo con l’ambiente e adattandosi all’incertezza nelle stime di consumo. Questo approccio consente di ridurre drasticamente le violazioni delle risorse (fino a circa il 2%), mantenendo, al contempo, un elevato livello di accuratezza. Infine, estendiamo l’analisi ad un contesto multi-agente, confrontando diverse formulazioni della funzione di reward e mostrando come la loro efficacia dipenda dalla specifica configurazione del sistema.

A reinforcement learning approach to optimal agent selection in Agentic AI systems under resource constraints

Cignoli, Simone
2025/2026

Abstract

In this work, we tackle the AIMPS (Agent–Inference Method–Parameter Selection) problem for agentic AI systems, where multiple heterogeneous models cooperate to execute multi-task pipelines. The heterogeneity among these models gives rise to a complex decision-making problem in which an Orchestrator must select the most appropriate agent, inference method, and parameter configuration in order to maximize performance while respecting resource budgets. This challenge is further complicated by the significant variability in execution time and energy consumption associated with each possible combination. As a baseline, we consider a deterministic solver that relies on the expected time and energy values of each configuration. However, this approach proves to be limited, resulting in a relatively high constraint violation rate (approximately 9%). To address this issue, we introduce a Reinforcement Learning (RL) framework that leverages interaction with the environment to learn and adapt to the uncertainty in resource usage estimates. This approach substantially reduces resource overuse (to around 2%) while maintaining high accuracy. Finally, we extend the framework to a multi-agent configuration, analyzing how different reward formulations impact learning dynamics and performance across single-agent and multi-agent settings.
ING - Scuola di Ingegneria Industriale e dell'Informazione
26-mar-2026
2025/2026
In questo lavoro formalizziamo il problema denominato AIMPS (Agent–Inference Method–Parameter Selection) per sistemi di Agentic AI nei quali, modelli eterogenei collaborano all’esecuzione di pipeline multi-task. L’eterogeneità dei modelli genera un complesso problema decisionale: un Orchestrator deve selezionare, tra le diverse configurazioni possibili, quelle che consentono di massimizzare le prestazioni senza violare i vincoli sulle risorse disponibili. Tale sfida è ulteriormente aggravata dalla significativa variabilità nelle stime di consumo di tempo ed energia associate a ciascuna combinazione. Come baseline proponiamo un approccio deterministico che risolve il problema utilizzando i valori attesi di tempo ed energia per ogni configurazione. Tuttavia, questo metodo evidenzia importanti limitazioni, traducendosi in un tasso di violazione dei vincoli relativamente elevato (circa il 9%). Successivamente introduciamo un framework di Reinforcement Learning, in cui, l’agente apprende interagendo con l’ambiente e adattandosi all’incertezza nelle stime di consumo. Questo approccio consente di ridurre drasticamente le violazioni delle risorse (fino a circa il 2%), mantenendo, al contempo, un elevato livello di accuratezza. Infine, estendiamo l’analisi ad un contesto multi-agente, confrontando diverse formulazioni della funzione di reward e mostrando come la loro efficacia dipenda dalla specifica configurazione del sistema.
File allegati
File Dimensione Formato  
2026_03_Cignoli_Tesi.pdf

non accessibile

Descrizione: Tesi
Dimensione 20.44 MB
Formato Adobe PDF
20.44 MB Adobe PDF   Visualizza/Apri
2026_03_Cignoli_Executive Summary.pdf

non accessibile

Descrizione: Executive Summary
Dimensione 1.17 MB
Formato Adobe PDF
1.17 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/252297