The increasing demand for automation in logistics and manufacturing has driven significant research into robotic bin packing systems. This thesis proposes a novel approach to the offline three-dimensional Bin Packing Problem (3D BPP) leveraging Deep Reinforcement Learning (DRL). The BPP inherently consists of two key decision-making steps: selecting the next object to be packed and determining its optimal placement within the container. In this work, the first step is addressed through a simple heuristic that prioritizes objects based on their volume, arranging them in descending order from largest to smallest. The second step is managed by a Convolutional Neural Network (CNN), referred to as the Placement Network, which evaluates and determines the most suitable position and orientation for each object within the container. The network leverages a heightmap-based representation to efficiently process spatial information. Additionally, a Deep Q-Learning (DQL) framework, combined with experience replay, epsilon-greedy exploration and action-masking, enables the system to learn effective packing strategies. To improve packing efficiency, the reward function is designed to maximize compactness, base utilization and stability, ensuring optimal space utilization. The proposed approach is validated in a simulated environment using PyBullet, and hyperparameters are optimized via Optuna. Results demonstrate that the model successfully generalizes across different object sets. This hybrid approach, integrating heuristics with DRL, presents a promising solution for robotic 3D bin packing in industrial applications. It contributes to the advancement of autonomous packing systems by improving efficiency in warehouse logistics and industrial automation.

La crescente domanda di automazione nella logistica e nella produzione ha portato a un'ampia ricerca sui sistemi robotici di bin packing. Questo studio propone un nuovo approccio al problema del Bin Packing tridimensionale (3D BPP) sfruttando il Deep Reinforcement Learning (DRL). Il BPP implica intrinsecamente due decisioni critiche: selezionare il prossimo oggetto da imballare e determinare la sua posizione ottimale all'interno del contenitore. In questo lavoro, il primo passo viene affrontato utilizzando un'euristica che dà priorità agli oggetti in base al loro volume, inserendoli in ordine decrescente dal più grande al più piccolo. Il secondo passo è gestito da una rete neurale convoluzionale (CNN), denominata Placement Network, che valuta e determina la posizione e l'orientamento più adatti per ogni oggetto all'interno del contenitore. La rete viene addestrata utilizzando una rappresentazione basata su heightmap per elaborare in modo efficiente le informazioni spaziali. Un framework Deep Q-Learning, che incorpora replay dell'esperienza, esplorazione epsilon-greedy e action-masking, consente al sistema di apprendere strategie di imballaggio efficaci. La funzione di ricompensa è progettata per massimizzare la compattezza, l'utilizzo della base e la stabilità, garantendo un'ottimizzazione dello spazio e dell'efficienza di imballaggio. I risultati sperimentali dimostrano che il modello si generalizza con successo su diversi set di oggetti. Questo approccio ibrido, che integra euristiche con il Deep Reinforcement Learning, rappresenta una soluzione promettente per il 3D BPP robotico in applicazioni industriali. Inoltre migliora i sistemi di imballaggio autonomo aumentando l'efficienza nella logistica di magazzino e nell'automazione industriale.

Planning robotic object packing via Deep Reinforcement Learning

MAZZOLA, ANNA
2023/2024

Abstract

The increasing demand for automation in logistics and manufacturing has driven significant research into robotic bin packing systems. This thesis proposes a novel approach to the offline three-dimensional Bin Packing Problem (3D BPP) leveraging Deep Reinforcement Learning (DRL). The BPP inherently consists of two key decision-making steps: selecting the next object to be packed and determining its optimal placement within the container. In this work, the first step is addressed through a simple heuristic that prioritizes objects based on their volume, arranging them in descending order from largest to smallest. The second step is managed by a Convolutional Neural Network (CNN), referred to as the Placement Network, which evaluates and determines the most suitable position and orientation for each object within the container. The network leverages a heightmap-based representation to efficiently process spatial information. Additionally, a Deep Q-Learning (DQL) framework, combined with experience replay, epsilon-greedy exploration and action-masking, enables the system to learn effective packing strategies. To improve packing efficiency, the reward function is designed to maximize compactness, base utilization and stability, ensuring optimal space utilization. The proposed approach is validated in a simulated environment using PyBullet, and hyperparameters are optimized via Optuna. Results demonstrate that the model successfully generalizes across different object sets. This hybrid approach, integrating heuristics with DRL, presents a promising solution for robotic 3D bin packing in industrial applications. It contributes to the advancement of autonomous packing systems by improving efficiency in warehouse logistics and industrial automation.
COLOMBO, MATTEO
TAFURO, ALESSANDRA
ZANCHETTIN, ANDREA MARIA
ING - Scuola di Ingegneria Industriale e dell'Informazione
3-apr-2025
2023/2024
La crescente domanda di automazione nella logistica e nella produzione ha portato a un'ampia ricerca sui sistemi robotici di bin packing. Questo studio propone un nuovo approccio al problema del Bin Packing tridimensionale (3D BPP) sfruttando il Deep Reinforcement Learning (DRL). Il BPP implica intrinsecamente due decisioni critiche: selezionare il prossimo oggetto da imballare e determinare la sua posizione ottimale all'interno del contenitore. In questo lavoro, il primo passo viene affrontato utilizzando un'euristica che dà priorità agli oggetti in base al loro volume, inserendoli in ordine decrescente dal più grande al più piccolo. Il secondo passo è gestito da una rete neurale convoluzionale (CNN), denominata Placement Network, che valuta e determina la posizione e l'orientamento più adatti per ogni oggetto all'interno del contenitore. La rete viene addestrata utilizzando una rappresentazione basata su heightmap per elaborare in modo efficiente le informazioni spaziali. Un framework Deep Q-Learning, che incorpora replay dell'esperienza, esplorazione epsilon-greedy e action-masking, consente al sistema di apprendere strategie di imballaggio efficaci. La funzione di ricompensa è progettata per massimizzare la compattezza, l'utilizzo della base e la stabilità, garantendo un'ottimizzazione dello spazio e dell'efficienza di imballaggio. I risultati sperimentali dimostrano che il modello si generalizza con successo su diversi set di oggetti. Questo approccio ibrido, che integra euristiche con il Deep Reinforcement Learning, rappresenta una soluzione promettente per il 3D BPP robotico in applicazioni industriali. Inoltre migliora i sistemi di imballaggio autonomo aumentando l'efficienza nella logistica di magazzino e nell'automazione industriale.
File allegati
File Dimensione Formato  
2025_04_Mazzola_Executive Summary.pdf

accessibile in internet per tutti a partire dal 12/03/2026

Descrizione: Executive summary
Dimensione 1.3 MB
Formato Adobe PDF
1.3 MB Adobe PDF   Visualizza/Apri
2025_04_Mazzola_Thesis.pdf

accessibile in internet per tutti a partire dal 12/03/2026

Descrizione: Testo della tesi
Dimensione 9.13 MB
Formato Adobe PDF
9.13 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/235519