Warm-starting specialist agents: VLA-augmented reinforcement learning for robotic manipulation

Nowadays Vision Language Action Models (VLA) provide strong generalization and high-level reasoning; however they suffer from slow inference, limited temporal coherence, and low precision in fine manipulation tasks, performances that could be improved only with enormous datasets of high quality or pipeline modifications, when resources are available. This thesis presents a novel Reinforcement Learning (RL) framework for robotic manipulation aimed at improving the performance of VLAs foundation models such as OpenVLA, with the introduction of a Warm-Started Middle-Level Specialist Agent, an intermediate control layer that learns to complement, rather than replace, the base VLA model. Building upon the Refined Policy Distillation (RPD) framework, this work extends the methodology beyond simple imitation, introducing a state-based and high-frequency optimization scheme, specifically built to be deploy-ready in real environments. Unlike traditional RPD, which focuses on distilling visual knowledge into a smaller policy, the proposed approach sparsifies OpenVLA guiding signal, allowing faster adaptation, higher success rate (s.r.), and improved training efficiency, all without requiring additional human demonstrations. The method was validated in simulation across multiple manipulation tasks (Lift Cube, Pick & Place, Lift Peg Upright, and Peg Insertion), and deployed on a real Franka Emika Panda robot. Results show a clear reduction in training epochs, a higher success rate, and smoother trajectories compared to baseline. This work demonstrates that reinforcement learning and foundation models can be effectively integrated in a complementary way, providing a scalable path toward more adaptive and efficient robotic control.

Oggi i modelli Visione-Linguaggio-Azione (VLA) offrono una forte capacità di generalizzazione e di ragionamento ad alto livello; tuttavia, presentano ancora limiti in termini di lentezza di inferenza, coerenza temporale ridotta e bassa precisione nei compiti di manipolazione robotica — prestazioni migliorabili solo tramite un insieme di dati esteso e di alta qualità, oppure con modifiche strutturali all'architettura, risorse permettendo. Questa tesi propone una nuova architettura di Apprendimento per Rinforzo (RL) per la manipolazione robotica, volto a migliorare le prestazioni dei modelli VLA, come OpenVLA, attraverso l’introduzione di un Agente Specialista Intermedio Guidato — uno strato di controllo che apprende a integrare, piuttosto che sostituire, il modello di base. Basandosi sulla metodologia di Refined Policy Distillation (RPD), questo lavoro ne estende l'approccio oltre la semplice imitazione, introducendo un agente basato sugli stati del manipolatore e dell'ambiente, ad alta frequenza, ideato specificamente per essere dispiegato immediatamente nel mondo reale. A differenza della procedura RPD tradizionale, che si concentra sulla distillazione visiva in un agente più compatto, il metodo proposto sparsifica il segnale di guida di OpenVLA, consentendo un’adattamento più rapido, un tasso di successo più elevato e una maggiore efficienza nell'apprendimento — senza ulteriori dimostrazioni umane. Il metodo è stato validato in simulazione su diversi task di manipolazione (Solleva Oggetto, Pick & Place, Bilanciamento di un Piolo e Inserimento di un Piolo) e successivamente testato su un robot reale Franka Emika Panda. I risultati mostrano una chiara riduzione delle epoche di addestramento, un tasso di successo più alto e traiettorie più fluide rispetto ai riferimenti considerati. Questo lavoro dimostra come l’apprendimento per rinforzo e i modelli VLA possano essere integrati in modo complementare, fornendo una via scalabile verso un controllo robotico più adattivo ed efficiente.