The aim of this dissertation is to present the design and validation of a deep learning-based pipeline for estimating the pose of an uncooperative target spacecraft, from a single grayscale monocular image. The possibility of enabling autonomous vision-based relative navigation, in close proximity to a non-cooperative space object, has recently gained remarkable interest in the space industry. In particular, such a technology would be especially appealing in an on-orbit servicing scenario as well as for Active Debris Removal (ADR) missions. The use of a simple camera, compared to more complex sensors such as a LiDAR, has numerous advantages in terms of lower mass, volume and power requirements. This would clearly translate into a substantially cheaper chaser spacecraft, at the expense of increased complexity of the image processing algorithms. The Relative Pose Estimation Pipeline (RPEP) proposed in this work leverages state-of-the art Convolutional Neural Network (CNN) architectures to detect the features of the target spacecraft from a single monocular image. Specifically, the overall pipeline is composed of three main subsystems. The input image is first of all processed using an object detection CNN that localizes the portion of the image enclosing our target, i.e. the Bounding Box. This is followed by a second CNN that regresses the location of semantic keypoints of the spacecraft. Eventually, a geometric optimization algorithm exploits the detected keypoint locations to solve for the final relative pose, based on the knowledge of camera intrinsics and of a wireframe model of the target satellite. The Spacecraft PosE Estimation Dataset (SPEED), a collection of 15300 images of the Tango spacecraft released by the Space rendezvous LABoratory (SLAB), has been used for training the Artificial Neural Networks employed in our pipeline, as well as for evaluating performance and estimation uncertainty. The RPEP presented in this dissertation guarantees on SPEED a centimeter-level position accuracy and degree-level attitude accuracy, along with considerable robustness to changes in lighting conditions and in the background. In addition, our architecture also showed to generalize well to actual images, despite having exclusively been exposed to synthetic imagery during the training of CNNs.

L’obiettivo di questa tesi è di illustrare il processo di sviluppo e validazione di una pipeline basata su tecniche di deep learning, per la stima della posa di un satellite non-cooperativo, a partire da una semplice immagine monoculare in scala di grigi. La possibilità di implementare un sistema autonomo di navigazione relativa basato su input visivi, in prossimità di un oggetto spaziale non-cooperativo, ha recentemente suscitato un interesse degno di nota nell’industria spaziale. In particolare, una simile tecnologia diverrebbe di particolare importanza in scenari quali ad esempio la manutenzione di un satellite già in orbita o in missioni per la rimozione attiva dei detriti spaziali (ADR). L’utilizzo di una fotocamera, rispetto a sensori di maggiore complessità come i LiDAR, presenta diversi vantaggi in termini di riduzione di massa, volume e potenza richiesta. Tutto ciò si traduce chiaramente in un notevole risparmio economico per il satellite “chaser”, che tuttavia si contrappone ad una maggiore complessità degli algoritmi impiegati per processare la sequenza di immagini raccolte da un sensore visivo. La pipeline per la stima della posa relativa qui proposta è in grado di identificare i punti caratteristici del satellite “target” da una singola immagine monoculare, sfruttando dei Convolutional Neural Networks (CNNs) che rappresentano l’attuale stato dell’arte nel campo della computer vision. Nello specifico, l’architettura complessiva è costituita da tre sottosistemi principali. Il primo step è affidato ad un CNN che identifica la porzione di immagine che racchiude al suo interno il target di interesse, ossia, identificando la cosiddetta Bounding Box. A questo punto, segue un secondo CNN addestrato a rilevare nella Bounding Box la posizione di alcuni punti caratteristici del satellite. Infine, un algoritmo di ottimizzazione geometrica sfrutta i punti appena identificati per convergere alla posa che meglio riflette tale posizionamento, tutto ciò basandosi sulla conoscenza delle caratteristiche del nostro sensore visivo e del modello 3D del satellite target. Lo Spacecraft PosE Estimation Dataset (SPEED), una raccolta di 15300 immagini del satellite Tango rilasciata dallo Space rendezvous LABoratory (SLAB), è stata utilizzata per l’addestramento delle reti neurali impiegate nella nostra pipeline, ma anche per valutare la performance e l’incertezza della stima che ne risulta. L’architettura proposta in questa tesi ha dimostrato un livello di precisione centimetrica per quanto riguarda la posizione relativa ed un errore di assetto nell’ordine del grado, insieme ad una considerevole robustezza a variazioni delle condizioni di illuminazione e dello sfondo dell’immagine. Inoltre, è stato provato che simili prestazioni sono garantite anche su immagini reali, benché l’addestramento dei CNN sia stato eseguito processando esclusivamente immagini sintetiche.

Deep learning-based monocular relative pose estimation of uncooperative spacecraft

Piazza, Massimo
2019/2020

Abstract

The aim of this dissertation is to present the design and validation of a deep learning-based pipeline for estimating the pose of an uncooperative target spacecraft, from a single grayscale monocular image. The possibility of enabling autonomous vision-based relative navigation, in close proximity to a non-cooperative space object, has recently gained remarkable interest in the space industry. In particular, such a technology would be especially appealing in an on-orbit servicing scenario as well as for Active Debris Removal (ADR) missions. The use of a simple camera, compared to more complex sensors such as a LiDAR, has numerous advantages in terms of lower mass, volume and power requirements. This would clearly translate into a substantially cheaper chaser spacecraft, at the expense of increased complexity of the image processing algorithms. The Relative Pose Estimation Pipeline (RPEP) proposed in this work leverages state-of-the art Convolutional Neural Network (CNN) architectures to detect the features of the target spacecraft from a single monocular image. Specifically, the overall pipeline is composed of three main subsystems. The input image is first of all processed using an object detection CNN that localizes the portion of the image enclosing our target, i.e. the Bounding Box. This is followed by a second CNN that regresses the location of semantic keypoints of the spacecraft. Eventually, a geometric optimization algorithm exploits the detected keypoint locations to solve for the final relative pose, based on the knowledge of camera intrinsics and of a wireframe model of the target satellite. The Spacecraft PosE Estimation Dataset (SPEED), a collection of 15300 images of the Tango spacecraft released by the Space rendezvous LABoratory (SLAB), has been used for training the Artificial Neural Networks employed in our pipeline, as well as for evaluating performance and estimation uncertainty. The RPEP presented in this dissertation guarantees on SPEED a centimeter-level position accuracy and degree-level attitude accuracy, along with considerable robustness to changes in lighting conditions and in the background. In addition, our architecture also showed to generalize well to actual images, despite having exclusively been exposed to synthetic imagery during the training of CNNs.
MAESTRINI, MICHELE
ING - Scuola di Ingegneria Industriale e dell'Informazione
15-dic-2020
2019/2020
L’obiettivo di questa tesi è di illustrare il processo di sviluppo e validazione di una pipeline basata su tecniche di deep learning, per la stima della posa di un satellite non-cooperativo, a partire da una semplice immagine monoculare in scala di grigi. La possibilità di implementare un sistema autonomo di navigazione relativa basato su input visivi, in prossimità di un oggetto spaziale non-cooperativo, ha recentemente suscitato un interesse degno di nota nell’industria spaziale. In particolare, una simile tecnologia diverrebbe di particolare importanza in scenari quali ad esempio la manutenzione di un satellite già in orbita o in missioni per la rimozione attiva dei detriti spaziali (ADR). L’utilizzo di una fotocamera, rispetto a sensori di maggiore complessità come i LiDAR, presenta diversi vantaggi in termini di riduzione di massa, volume e potenza richiesta. Tutto ciò si traduce chiaramente in un notevole risparmio economico per il satellite “chaser”, che tuttavia si contrappone ad una maggiore complessità degli algoritmi impiegati per processare la sequenza di immagini raccolte da un sensore visivo. La pipeline per la stima della posa relativa qui proposta è in grado di identificare i punti caratteristici del satellite “target” da una singola immagine monoculare, sfruttando dei Convolutional Neural Networks (CNNs) che rappresentano l’attuale stato dell’arte nel campo della computer vision. Nello specifico, l’architettura complessiva è costituita da tre sottosistemi principali. Il primo step è affidato ad un CNN che identifica la porzione di immagine che racchiude al suo interno il target di interesse, ossia, identificando la cosiddetta Bounding Box. A questo punto, segue un secondo CNN addestrato a rilevare nella Bounding Box la posizione di alcuni punti caratteristici del satellite. Infine, un algoritmo di ottimizzazione geometrica sfrutta i punti appena identificati per convergere alla posa che meglio riflette tale posizionamento, tutto ciò basandosi sulla conoscenza delle caratteristiche del nostro sensore visivo e del modello 3D del satellite target. Lo Spacecraft PosE Estimation Dataset (SPEED), una raccolta di 15300 immagini del satellite Tango rilasciata dallo Space rendezvous LABoratory (SLAB), è stata utilizzata per l’addestramento delle reti neurali impiegate nella nostra pipeline, ma anche per valutare la performance e l’incertezza della stima che ne risulta. L’architettura proposta in questa tesi ha dimostrato un livello di precisione centimetrica per quanto riguarda la posizione relativa ed un errore di assetto nell’ordine del grado, insieme ad una considerevole robustezza a variazioni delle condizioni di illuminazione e dello sfondo dell’immagine. Inoltre, è stato provato che simili prestazioni sono garantite anche su immagini reali, benché l’addestramento dei CNN sia stato eseguito processando esclusivamente immagini sintetiche.
File allegati
File Dimensione Formato  
MSc_Thesis_Massimo_Piazza.pdf

accessibile in internet per tutti

Dimensione 12.17 MB
Formato Adobe PDF
12.17 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/170228