Reinforcement learning (RL), especially deep reinforcement learning (DRL), has achieved remarkable success in complex domains like game playing, robotics, and autonomous driving. Curriculum learning (CL) in RL, inspired by educational curricula, involves training agents on tasks of increasing difficulty to enhance learning efficiency and generalization. This thesis addresses the challenges of RL by applying both manual and automatic CL to robotic control in air hockey. Air hockey is modeled as a Markov Decision Process (MDP), using joint positions and velocities for state and action spaces. Manual CL begins with a "Defend" task, where task complexity is incrementally adjusted, followed by a "Counter-Attack" task to develop offensive strategies. The automatic CL approach employs a teacher-student architecture for the "Hit" task, where the teacher assigns mini-tasks to guide the student's learning. Empirical results demonstrate that manual CL effectively improves skill refinement and task adaptation, while automatic CL shows potential for adaptive training strategies. This research advances RL techniques for robotic control, offering insights into practical applications in dynamic environments.

L’apprendimento per rinforzo (RL), in particolare l'apprendimento per rinforzo profondo (DRL), ha ottenuto un notevole successo in settori complessi come i giochi, la robotica e la guida autonoma. L'apprendimento del curriculum (CL) in RL, ispirato ai curricula educativi, prevede la formazione di agenti su compiti di difficoltà crescente per migliorare l'efficienza dell'apprendimento e la generalizzazione. Questa tesi affronta le sfide della RL applicando la CL sia manuale che automatica al controllo robotico nell'air hockey. L'air hockey è modellato come un processo decisionale di Markov (MDP), utilizzando posizioni e velocità congiunte per gli spazi di stato e di azione. Il CL manuale inizia con un'attività di "Difesa", in cui la complessità dell'attività viene modificata in modo incrementale, seguita da un'attività di "Contrattacco" per sviluppare strategie offensive. L'approccio CL automatico utilizza un'architettura insegnante-studente per il compito "Hit", in cui l'insegnante assegna mini-compiti per guidare l'apprendimento dello studente. I risultati empirici dimostrano che il CL manuale migliora efficacemente il perfezionamento delle competenze e l’adattamento al compito, mentre il CL automatico mostra il potenziale per strategie di formazione adattative. Questa ricerca fa avanzare le tecniche RL per il controllo robotico, offrendo approfondimenti su applicazioni pratiche in ambienti dinamici.

Robotic arm control via curriculum deep reinforcement learning

ZHALEHMEHRABI, AMIRHOSSEIN
2023/2024

Abstract

Reinforcement learning (RL), especially deep reinforcement learning (DRL), has achieved remarkable success in complex domains like game playing, robotics, and autonomous driving. Curriculum learning (CL) in RL, inspired by educational curricula, involves training agents on tasks of increasing difficulty to enhance learning efficiency and generalization. This thesis addresses the challenges of RL by applying both manual and automatic CL to robotic control in air hockey. Air hockey is modeled as a Markov Decision Process (MDP), using joint positions and velocities for state and action spaces. Manual CL begins with a "Defend" task, where task complexity is incrementally adjusted, followed by a "Counter-Attack" task to develop offensive strategies. The automatic CL approach employs a teacher-student architecture for the "Hit" task, where the teacher assigns mini-tasks to guide the student's learning. Empirical results demonstrate that manual CL effectively improves skill refinement and task adaptation, while automatic CL shows potential for adaptive training strategies. This research advances RL techniques for robotic control, offering insights into practical applications in dynamic environments.
LIKMETA, AMARILDO
ING - Scuola di Ingegneria Industriale e dell'Informazione
16-lug-2024
2023/2024
L’apprendimento per rinforzo (RL), in particolare l'apprendimento per rinforzo profondo (DRL), ha ottenuto un notevole successo in settori complessi come i giochi, la robotica e la guida autonoma. L'apprendimento del curriculum (CL) in RL, ispirato ai curricula educativi, prevede la formazione di agenti su compiti di difficoltà crescente per migliorare l'efficienza dell'apprendimento e la generalizzazione. Questa tesi affronta le sfide della RL applicando la CL sia manuale che automatica al controllo robotico nell'air hockey. L'air hockey è modellato come un processo decisionale di Markov (MDP), utilizzando posizioni e velocità congiunte per gli spazi di stato e di azione. Il CL manuale inizia con un'attività di "Difesa", in cui la complessità dell'attività viene modificata in modo incrementale, seguita da un'attività di "Contrattacco" per sviluppare strategie offensive. L'approccio CL automatico utilizza un'architettura insegnante-studente per il compito "Hit", in cui l'insegnante assegna mini-compiti per guidare l'apprendimento dello studente. I risultati empirici dimostrano che il CL manuale migliora efficacemente il perfezionamento delle competenze e l’adattamento al compito, mentre il CL automatico mostra il potenziale per strategie di formazione adattative. Questa ricerca fa avanzare le tecniche RL per il controllo robotico, offrendo approfondimenti su applicazioni pratiche in ambienti dinamici.
File allegati
File Dimensione Formato  
Thesis.pdf

Open Access dal 01/07/2025

Descrizione: Thesis
Dimensione 2.32 MB
Formato Adobe PDF
2.32 MB Adobe PDF Visualizza/Apri
executive_summary.pdf

Open Access dal 01/07/2025

Descrizione: Executive summary
Dimensione 777.52 kB
Formato Adobe PDF
777.52 kB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/223463