Retrieval of hidden or partially visible objects in environments rich of objects by robots presents significant challenges due to occlusions, limited visibility and complex interactions between densely arranged objects. This thesis introduces a novel modular framework for optimal planning in object retrieval, which synergistically combines prehensile (grasp) and non-prehensile (push) manipulation strategies. Taking advantage of Deep Reinforcement Learning, the system learns to select and execute the most effective primitive based on an RGB-D image acquired from above the scene. The proposed architecture breaks down the task into specialized modules, each dedicated to perception, search, target singulation and manipulation, respectively. All these modules work in synergy to overcome the limitations of grasp-only approaches or those with fully visible or easily accessible objects. Extensive simulations and real-world case experiments demonstrate that our framework not only matches the State of the Art retrieval success rates in scenarios where the target is partially visible or hidden, but also reduces training data and the time required to adapt to new environments. These results offer a robust and adaptable solution for complex object retrieval tasks in dynamic and unstructured environments.

Il recupero mediante robot di oggetti nascosti o parzialmente visibili in ambienti ricchi di oggetti presenta sfide significative a causa delle occlusioni, della visibilità limitata e della complessità delle interazioni tra oggetti disposti densamente. Questa tesi introduce un nuovo framework modulare per la pianificazione ottimale nel recupero di oggetti, che combina sinergicamente strategie di manipolazione prensili (presa) e non prensili (spinta). Sfruttando il Deep Reinforcement Learning, il sistema impara a selezionare ed eseguire la primitiva più efficace basandosi su un'immagine RGB-D acquisita dall'alto della scena. L'architettura proposta scompone il compito in moduli specializzati, ognuno dedicato rispettivamente alla percezione, alla ricerca, alla singolazione del target e alla manipolazione. Tutti questi moduli, lavorano in sinergia per superare le limitazioni degli approcci basati esclusivamente sulla presa o aventi oggetti pienamente visibili o facilmente accessibili. Simulazioni approfondite e sperimentazioni su casi reali dimostrano che il nostro framework non solo eguaglia i tassi di successo dello Stato dell'Arte nel recupero in scenari in cui il target è parzialmente visibile o nascosto, ma riduce anche i dati di addestramento e il tempo necessario per adattarsi a nuovi ambienti. Questi risultati offrono una soluzione robusta e adattabile per compiti complessi di recupero degli oggetti parzialmente o completamente nascosti in ambienti dinamici e non strutturati.

A deep learning-based approach combining push and grasp actions for robotic object retrieval tasks

Nozza Bielli, Alessio
2023/2024

Abstract

Retrieval of hidden or partially visible objects in environments rich of objects by robots presents significant challenges due to occlusions, limited visibility and complex interactions between densely arranged objects. This thesis introduces a novel modular framework for optimal planning in object retrieval, which synergistically combines prehensile (grasp) and non-prehensile (push) manipulation strategies. Taking advantage of Deep Reinforcement Learning, the system learns to select and execute the most effective primitive based on an RGB-D image acquired from above the scene. The proposed architecture breaks down the task into specialized modules, each dedicated to perception, search, target singulation and manipulation, respectively. All these modules work in synergy to overcome the limitations of grasp-only approaches or those with fully visible or easily accessible objects. Extensive simulations and real-world case experiments demonstrate that our framework not only matches the State of the Art retrieval success rates in scenarios where the target is partially visible or hidden, but also reduces training data and the time required to adapt to new environments. These results offer a robust and adaptable solution for complex object retrieval tasks in dynamic and unstructured environments.
COLOMBO, MATTEO
ZANCHETTIN , ANDREA
ING - Scuola di Ingegneria Industriale e dell'Informazione
3-apr-2025
2023/2024
Il recupero mediante robot di oggetti nascosti o parzialmente visibili in ambienti ricchi di oggetti presenta sfide significative a causa delle occlusioni, della visibilità limitata e della complessità delle interazioni tra oggetti disposti densamente. Questa tesi introduce un nuovo framework modulare per la pianificazione ottimale nel recupero di oggetti, che combina sinergicamente strategie di manipolazione prensili (presa) e non prensili (spinta). Sfruttando il Deep Reinforcement Learning, il sistema impara a selezionare ed eseguire la primitiva più efficace basandosi su un'immagine RGB-D acquisita dall'alto della scena. L'architettura proposta scompone il compito in moduli specializzati, ognuno dedicato rispettivamente alla percezione, alla ricerca, alla singolazione del target e alla manipolazione. Tutti questi moduli, lavorano in sinergia per superare le limitazioni degli approcci basati esclusivamente sulla presa o aventi oggetti pienamente visibili o facilmente accessibili. Simulazioni approfondite e sperimentazioni su casi reali dimostrano che il nostro framework non solo eguaglia i tassi di successo dello Stato dell'Arte nel recupero in scenari in cui il target è parzialmente visibile o nascosto, ma riduce anche i dati di addestramento e il tempo necessario per adattarsi a nuovi ambienti. Questi risultati offrono una soluzione robusta e adattabile per compiti complessi di recupero degli oggetti parzialmente o completamente nascosti in ambienti dinamici e non strutturati.
File allegati
File Dimensione Formato  
2025_04_Nozza_Bielli_Executive_Summary_02.pdf

accessibile in internet per tutti a partire dal 12/03/2026

Descrizione: Testo dell'Executive Summary.
Dimensione 25.14 MB
Formato Adobe PDF
25.14 MB Adobe PDF   Visualizza/Apri
2025_04_Nozza_Bielli_thesis_01.pdf

accessibile in internet per tutti a partire dal 12/03/2026

Descrizione: Testo della Tesi.
Dimensione 66.95 MB
Formato Adobe PDF
66.95 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/234133