Visual Odometry (VO) is the process of estimating the relative motion of a vehicle by using solely image data gathered from the camera. In underwater environments, VO becomes extremely challenging but valuable since ordinary sensors for on-road localization are usually unpractical in these hostile environments. For years, VO methods have been purely based on Computer Vision (CV) principles. However, the recent advances in Deep Learning (DL) have ushered in a new era for VO approaches. These novel methods have achieved impressive performance with state-of-the-art results on urban datasets. Nevertheless, little effort has been made to push learning-based research towards natural environments, such as underwater. Consequently, this work aims to bridge the research gap by evaluating the effectiveness of the learning-based approach in the navigation of Autonomous Underwater Vehicles (AUVs). We compare two learning-based methods with a traditional feature-based method on the Underwater Caves dataset, a very challenging dataset collected in the unstructured environment of an underwater cave complex. Extensive experiments are thus conducted training the models on this dataset. Moreover, we investigate different aspects and propose several improvements, such as sub-sampling the video clips to emphasize the camera motion between consecutive frames, or training exclusively on images with relevant content discarding those with dark borders and representing solely sandy bottoms. Finally, during the training, we also leverage underwater images from other datasets, hence acquired from different cameras. However, the best improvement is obtained by penalizing rotations around the x-axis of the camera coordinate system. The three methods are evaluated on test sequences that cover different lighting conditions. In the most favorable environments, although learning-based methods are not up to par with the feature-based method, the results show great potential. Furthermore, in extreme lighting conditions, where the feature-based baseline sharply fails to bootstrap, one of the two learning-based methods produces instead qualitatively good trajectory results, revealing the power of the learning-based approach in this peculiar context.

La Visual Odometry (VO), od odometria visiva, è il processo che si occupa di stimare il cambiamento della posizione di un veicolo usando esclusivamente le immagini acquisite tramite la fotocamera montata sul veicolo stesso. In ambienti subacquei, la VO diventa estremamente difficile, ma al tempo stesso particolarmente utile, dato che in questi ambienti ostili i sensori solitamente usati per la localizzazione su strada diventano di fatto inutilizzabili. Per anni, i metodi per calcolare la VO si sono basati puramente su principi di Computer Vision (CV), o visione artificiale. L’ascesa del Deep Learning (DL) ha però dato inizio a una nuova era per i metodi di VO, basandosi sulle reti neurali artificiali. Questi metodi innovativi hanno raggiunto performance impressionanti, ridefinendo lo stato dell’arte su datasets urbani. Tuttavia, il loro utilizzo in ambienti naturali, come quello subacqueo, non è ancora stato propriamente studiato. Per tanto, il presente lavoro ambisce a colmare questo divario, valutando l’efficacia dell’approccio learning-based nella navigazione dei veicoli subacquei autonomi. In questa tesi confrontiamo le performance di due metodi learning-based con quelle di un tradizionale metodo feature-based, sull’Underwater Caves dataset, un dataset particolarmente impegnativo collezionato in un ambiente non strutturato di un complesso di grotte subacquee. Sono quindi condotti molteplici esperimenti eseguendo il training dei modelli su questo dataset. Inoltre, investighiamo diversi aspetti e proponiamo vari miglioramenti, come il sotto-campionamento dei videoclips così da enfatizzare il movimento della fotocamera tra immagini adiacenti, oppure eseguire il training considerando soltanto immagini che presentano un contenuto rilevante escludendo quindi quelle aventi i bordi oscurati e raffiguranti puramente il fondale sabbioso. Infine, sempre durante il training sfruttiamo contemporaneamente anche altre sequenze provenienti da datasets subacquei, e dunque acquisite da fotocamere diverse. Tuttavia, il miglioramento più sostanziale è ottenuto penalizzando durante il training le rotazioni attorno all’asse x del sistema di coordinate della fotocamera. I tre metodi sono valutati su sequenze di test che coprono diverse condizioni di luce. Negli ambienti più favorevoli, seppure i metodi learning-based non sono all’altezza del metodo tradizionale, i risultati mostrano grandi potenzialità. Inoltre, in condizioni di luce estreme, dove l’inizializzazione del metodo tradizionale fallisce, uno dei metodi learning-based produce invece traiettorie qualitativamente buone, rivelando dunque le promettenti capacità dell’approccio learning-based in questo contesto peculiare.

Monocular visual odometry for autonomous underwater navigation. An analysis of learning-based monocular visual odometry approaches in underwater scenarios

Caraffa, Andrea
2020/2021

Abstract

Visual Odometry (VO) is the process of estimating the relative motion of a vehicle by using solely image data gathered from the camera. In underwater environments, VO becomes extremely challenging but valuable since ordinary sensors for on-road localization are usually unpractical in these hostile environments. For years, VO methods have been purely based on Computer Vision (CV) principles. However, the recent advances in Deep Learning (DL) have ushered in a new era for VO approaches. These novel methods have achieved impressive performance with state-of-the-art results on urban datasets. Nevertheless, little effort has been made to push learning-based research towards natural environments, such as underwater. Consequently, this work aims to bridge the research gap by evaluating the effectiveness of the learning-based approach in the navigation of Autonomous Underwater Vehicles (AUVs). We compare two learning-based methods with a traditional feature-based method on the Underwater Caves dataset, a very challenging dataset collected in the unstructured environment of an underwater cave complex. Extensive experiments are thus conducted training the models on this dataset. Moreover, we investigate different aspects and propose several improvements, such as sub-sampling the video clips to emphasize the camera motion between consecutive frames, or training exclusively on images with relevant content discarding those with dark borders and representing solely sandy bottoms. Finally, during the training, we also leverage underwater images from other datasets, hence acquired from different cameras. However, the best improvement is obtained by penalizing rotations around the x-axis of the camera coordinate system. The three methods are evaluated on test sequences that cover different lighting conditions. In the most favorable environments, although learning-based methods are not up to par with the feature-based method, the results show great potential. Furthermore, in extreme lighting conditions, where the feature-based baseline sharply fails to bootstrap, one of the two learning-based methods produces instead qualitatively good trajectory results, revealing the power of the learning-based approach in this peculiar context.
MATTEUCCI, MATTEO
FOLKESSON, JOHN
ING - Scuola di Ingegneria Industriale e dell'Informazione
7-ott-2021
2020/2021
La Visual Odometry (VO), od odometria visiva, è il processo che si occupa di stimare il cambiamento della posizione di un veicolo usando esclusivamente le immagini acquisite tramite la fotocamera montata sul veicolo stesso. In ambienti subacquei, la VO diventa estremamente difficile, ma al tempo stesso particolarmente utile, dato che in questi ambienti ostili i sensori solitamente usati per la localizzazione su strada diventano di fatto inutilizzabili. Per anni, i metodi per calcolare la VO si sono basati puramente su principi di Computer Vision (CV), o visione artificiale. L’ascesa del Deep Learning (DL) ha però dato inizio a una nuova era per i metodi di VO, basandosi sulle reti neurali artificiali. Questi metodi innovativi hanno raggiunto performance impressionanti, ridefinendo lo stato dell’arte su datasets urbani. Tuttavia, il loro utilizzo in ambienti naturali, come quello subacqueo, non è ancora stato propriamente studiato. Per tanto, il presente lavoro ambisce a colmare questo divario, valutando l’efficacia dell’approccio learning-based nella navigazione dei veicoli subacquei autonomi. In questa tesi confrontiamo le performance di due metodi learning-based con quelle di un tradizionale metodo feature-based, sull’Underwater Caves dataset, un dataset particolarmente impegnativo collezionato in un ambiente non strutturato di un complesso di grotte subacquee. Sono quindi condotti molteplici esperimenti eseguendo il training dei modelli su questo dataset. Inoltre, investighiamo diversi aspetti e proponiamo vari miglioramenti, come il sotto-campionamento dei videoclips così da enfatizzare il movimento della fotocamera tra immagini adiacenti, oppure eseguire il training considerando soltanto immagini che presentano un contenuto rilevante escludendo quindi quelle aventi i bordi oscurati e raffiguranti puramente il fondale sabbioso. Infine, sempre durante il training sfruttiamo contemporaneamente anche altre sequenze provenienti da datasets subacquei, e dunque acquisite da fotocamere diverse. Tuttavia, il miglioramento più sostanziale è ottenuto penalizzando durante il training le rotazioni attorno all’asse x del sistema di coordinate della fotocamera. I tre metodi sono valutati su sequenze di test che coprono diverse condizioni di luce. Negli ambienti più favorevoli, seppure i metodi learning-based non sono all’altezza del metodo tradizionale, i risultati mostrano grandi potenzialità. Inoltre, in condizioni di luce estreme, dove l’inizializzazione del metodo tradizionale fallisce, uno dei metodi learning-based produce invece traiettorie qualitativamente buone, rivelando dunque le promettenti capacità dell’approccio learning-based in questo contesto peculiare.
File allegati
File Dimensione Formato  
2021_Ottobre_Caraffa.pdf

accessibile in internet per tutti

Descrizione: testo tesi
Dimensione 10.49 MB
Formato Adobe PDF
10.49 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/180299