A reinforcement learning approach to optimal agent selection in Agentic AI systems under resource constraints

Biblioteche e Archivi
POLITesi - Archivio digitale delle tesi di laurea e di dottorato

In this work, we tackle the AIMPS (Agent–Inference Method–Parameter Selection) problem for agentic AI systems, where multiple heterogeneous models cooperate to execute multi-task pipelines. The heterogeneity among these models gives rise to a complex decision-making problem in which an Orchestrator must select the most appropriate agent, inference method, and parameter configuration in order to maximize performance while respecting resource budgets. This challenge is further complicated by the significant variability in execution time and energy consumption associated with each possible combination. As a baseline, we consider a deterministic solver that relies on the expected time and energy values of each configuration. However, this approach proves to be limited, resulting in a relatively high constraint violation rate (approximately 9%). To address this issue, we introduce a Reinforcement Learning (RL) framework that leverages interaction with the environment to learn and adapt to the uncertainty in resource usage estimates. This approach substantially reduces resource overuse (to around 2%) while maintaining high accuracy. Finally, we extend the framework to a multi-agent configuration, analyzing how different reward formulations impact learning dynamics and performance across single-agent and multi-agent settings.

In questo lavoro formalizziamo il problema denominato AIMPS (Agent–Inference Method–Parameter Selection) per sistemi di Agentic AI nei quali, modelli eterogenei collaborano all’esecuzione di pipeline multi-task. L’eterogeneità dei modelli genera un complesso problema decisionale: un Orchestrator deve selezionare, tra le diverse configurazioni possibili, quelle che consentono di massimizzare le prestazioni senza violare i vincoli sulle risorse disponibili. Tale sfida è ulteriormente aggravata dalla significativa variabilità nelle stime di consumo di tempo ed energia associate a ciascuna combinazione. Come baseline proponiamo un approccio deterministico che risolve il problema utilizzando i valori attesi di tempo ed energia per ogni configurazione. Tuttavia, questo metodo evidenzia importanti limitazioni, traducendosi in un tasso di violazione dei vincoli relativamente elevato (circa il 9%). Successivamente introduciamo un framework di Reinforcement Learning, in cui, l’agente apprende interagendo con l’ambiente e adattandosi all’incertezza nelle stime di consumo. Questo approccio consente di ridurre drasticamente le violazioni delle risorse (fino a circa il 2%), mantenendo, al contempo, un elevato livello di accuratezza. Infine, estendiamo l’analisi ad un contesto multi-agente, confrontando diverse formulazioni della funzione di reward e mostrando come la loro efficacia dipenda dalla specifica configurazione del sistema.

A reinforcement learning approach to optimal agent selection in Agentic AI systems under resource constraints

Cignoli, Simone

2025/2026

Abstract

In this work, we tackle the AIMPS (Agent–Inference Method–Parameter Selection) problem for agentic AI systems, where multiple heterogeneous models cooperate to execute multi-task pipelines. The heterogeneity among these models gives rise to a complex decision-making problem in which an Orchestrator must select the most appropriate agent, inference method, and parameter configuration in order to maximize performance while respecting resource budgets. This challenge is further complicated by the significant variability in execution time and energy consumption associated with each possible combination. As a baseline, we consider a deterministic solver that relies on the expected time and energy values of each configuration. However, this approach proves to be limited, resulting in a relatively high constraint violation rate (approximately 9%). To address this issue, we introduce a Reinforcement Learning (RL) framework that leverages interaction with the environment to learn and adapt to the uncertainty in resource usage estimates. This approach substantially reduces resource overuse (to around 2%) while maintaining high accuracy. Finally, we extend the framework to a multi-agent configuration, analyzing how different reward formulations impact learning dynamics and performance across single-agent and multi-agent settings.

Scheda breve

Scheda completa

	Relatore
	
				ARDAGNA, DANILO
			
	Correlatore/i
	
				FILIPPINI, FEDERICA
SEDGHANI, HAMTA
			
	Scuola / Dip.
	
				ING  - Scuola di Ingegneria Industriale e dell'Informazione
			
	Data
	
				26-mar-2026
			
	Anno accademico
	
				2025/2026
			
	Abstract in italiano
	
				In questo lavoro formalizziamo il problema denominato AIMPS (Agent–Inference Method–Parameter Selection) per sistemi di Agentic AI nei quali, modelli eterogenei collaborano all’esecuzione di pipeline multi-task. L’eterogeneità dei modelli genera un complesso problema decisionale: un Orchestrator deve selezionare, tra le diverse configurazioni possibili, quelle che consentono di massimizzare le prestazioni senza violare i vincoli sulle risorse disponibili. Tale sfida è ulteriormente aggravata dalla significativa variabilità nelle stime di consumo di tempo ed energia associate a ciascuna combinazione.
Come baseline proponiamo un approccio deterministico che risolve il problema utilizzando i valori attesi di tempo ed energia per ogni configurazione. Tuttavia, questo metodo evidenzia importanti limitazioni, traducendosi in un tasso di violazione dei vincoli relativamente elevato (circa il 9%). Successivamente introduciamo un framework di Reinforcement Learning, in cui, l’agente apprende interagendo con l’ambiente e adattandosi all’incertezza nelle stime di consumo. Questo approccio consente di ridurre drasticamente le violazioni delle risorse (fino a circa il 2%), mantenendo, al contempo, un elevato livello di accuratezza.
Infine, estendiamo l’analisi ad un contesto multi-agente, confrontando diverse formulazioni della funzione di reward e mostrando come la loro efficacia dipenda  dalla specifica configurazione del sistema.
			
	Appare nelle tipologie:
	
				Tesi di laurea Magistrale

File allegati

File	Dimensione	Formato
2026_03_Cignoli_Tesi.pdf non accessibile Descrizione: Tesi Dimensione 20.44 MB Formato Adobe PDF Visualizza/Apri	20.44 MB	Adobe PDF	Visualizza/Apri
2026_03_Cignoli_Executive Summary.pdf non accessibile Descrizione: Executive Summary Dimensione 1.17 MB Formato Adobe PDF Visualizza/Apri	1.17 MB	Adobe PDF	Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/252297