A configuration-driven multi-agent framework for language-based human robot collaboration

The increasing use of natural language as a high-level interface for robotic systems requires architectures capable of transforming human instructions into reliable physical actions. Although Large Language Models (LLMs) provide powerful reasoning capabilities, their direct integration into robotic pipelines raises issues of grounding, validation, and execution safety. Ensuring that generated plans remain consistent with the perceived environment and operational constraints remains a central challenge. This thesis proposes a configuration-driven multi-agent architecture for language-guided robotic task planning and execution. The framework decomposes the system into specialized agents responsible for scene representation, high-level planning, action parameter extraction, and execution control, enabling explicit coordination and structured information flow. A continuously updated scene model maintains objects, properties, spatial relations, and task states. From this representation, a task-oriented description is derived to support high-level reasoning. Planning is realized through multiple coordinated calls to a local Large Language Model, progressively constructing executable action sequences. Object grounding follows a hybrid strategy: linguistic references are first converted into a structured schema via an LLM, and then deterministically matched against the maintained scene model. The framework is implemented and validated on a real robotic setup through a quantitative evaluation of planning accuracy, parameter extraction, grounding consistency, and end-to-end execution performance. The study also includes a comparison among different locally deployed Large Language Models, analyzing how model scale affects planning robustness and grounding precision. The results demonstrate strong robustness and reliability, validating the effectiveness of the proposed coordinated multi-agent architecture.

Il crescente impiego del linguaggio naturale come interfaccia ad alto livello nei sistemi robotici richiede architetture capaci di tradurre istruzioni umane in azioni fisiche affidabili. Sebbene i Large Language Models offrano avanzate capacità di ragionamento, la loro integrazione diretta nelle pipeline robotiche solleva criticità in termini di grounding, validazione e sicurezza esecutiva. Garantire che i piani generati siano coerenti con l’ambiente percepito e con i vincoli operativi rappresenta quindi una sfida centrale nello sviluppo di sistemi robotici intelligenti. In questo contesto, la tesi propone un’architettura configurabile multi-agente per la pianificazione e l’esecuzione di task robotici a partire da istruzioni espresse in linguaggio naturale. L’architettura è strutturata in agenti specializzati responsabili della gestione della scena, della pianificazione ad alto livello, dell’estrazione dei parametri d’azione e del controllo dell’esecuzione, garantendo un coordinamento esplicito e una propagazione strutturata delle informazioni. La scena viene rappresentata e aggiornata in modo coerente, organizzando oggetti, proprietà e relazioni spaziali in una struttura che costituisce la base per l’interpretazione delle istruzioni e per la definizione delle azioni da eseguire. La pianificazione è realizzata attraverso diverse chiamate coordinate a un LLM locale, che elaborano progressivamente una sequenza strutturata di azioni eseguibili. Il grounding integra una formalizzazione strutturata dei riferimenti linguistici, ottenuta tramite LLM, con una successiva risoluzione deterministica basata sulla rappresentazione della scena. Il framework è stato implementato e validato su un sistema robotico reale mediante una valutazione quantitativa delle componenti architetturali e delle prestazioni complessive end-to-end. È stato inoltre effettuato un confronto tra diversi LLM eseguiti in locale, analizzando l’influenza della dimensione del modello sulla stabilità del sistema. I risultati evidenziano elevata robustezza e affidabilità, confermando la solidità e l’efficacia dell’architettura multi-agente proposta.