Vehicle perception and localization systems based on monocular camera and inertial measurement units are currently attracting more and more attention. This paper studies the visual perception of vehicles in a highly dynamic urban environment, carries on research on the static environmental perception such as traffic signs and the perception of vehicles in dynamic environment. Based on the identification and detection of traffic signs, the establishment and utilization of road maps are explored. Firstly, the traffic signs recognition method based on cascade convolutional neural networks is studied. The cascading convolutional neural network is light weight and fast. It can achieve good result on tasks like detection of traffic signs which has specific color and shape features. The performance of the model is tested on the traffic signs open-access datasets. The experimental results show that the model can meet the system requirements. Secondly, it analyzes the shortcomings of the existing traffic signs classification datasets. Then the prototype-based one-sample learning method is selected to classify the traffic signs. Utilizing the reparameterization technique, the differential loss function was derived. The experimental results show that when there is a new category that have not been seen in the training set, the algorithm can still achieve an accuracy of eighty percent for these new classes. Thirdly, the multi-vehicle tracking in dynamic scenes is studied. Object tracking algorithm based on optical flow method is explained. A Kalman filter is designed to get better results. The object detection and object tracking were implemented as a double-thread system so that the real-time requirement can be satisfied. Finally, the establishment of a priori map based on visual and GPS information, on-line landmark matching and localization fusion with monocular vision-inertial odometer are studied. The cost function and Jacobian matrix of the sliding window based tightly coupled VIO and the reprojection error function based on landmarks are derived. Tested on one of the KITTI Odometry sequences, results have shown that landmark mapping based on a priori map can greatly improve the localization accuracy of the monocular vision-inertial odometer.

I sistemi di percezione e localizzazione dei veicoli basati su telecamere monoculari e unità di misurazione inerziale stanno attirando sempre più attenzione. Questo documento studia la percezione visiva dei veicoli in un ambiente urbano altamente dinamico, svolge ricerche sulla percezione ambientale statica come i segnali stradali e la percezione dei veicoli in un ambiente dinamico. Sulla base dell'identificazione e del rilevamento dei segnali stradali, vengono esplorate la creazione e l'utilizzo di mappe stradali. In primo luogo, viene studiato il metodo di riconoscimento dei segnali stradali basato su reti neurali convoluzionali a cascata. La rete neurale convoluzionale a cascata è leggera e veloce. Può ottenere buoni risultati su attività come il rilevamento di segnali stradali con specifiche caratteristiche di colore e forma. Le prestazioni del modello sono testate sui set di dati ad accesso aperto dei segnali stradali. I risultati sperimentali mostrano che il modello può soddisfare i requisiti di sistema. In secondo luogo, analizza le carenze dei set di dati di classificazione dei segnali stradali esistenti. Quindi viene selezionato il metodo di apprendimento a un campione basato su prototipo per classificare i segnali stradali. Utilizzando la tecnica di riparametrizzazione, è stata derivata la funzione di perdita differenziale. I risultati sperimentali mostrano che quando c'è una nuova categoria che non è stata vista nel set di addestramento, l'algoritmo può ancora raggiungere una precisione dell'ottanta per cento per queste nuove classi. In terzo luogo, viene studiato il tracciamento di più veicoli in scene dinamiche. Viene spiegato l'algoritmo di tracciamento degli oggetti basato sul metodo del flusso ottico. Un filtro Kalman è progettato per ottenere risultati migliori. Il rilevamento e il rilevamento degli oggetti sono stati implementati come un sistema a doppio thread in modo da soddisfare i requisiti in tempo reale. Infine, viene studiata la creazione di una mappa a priori basata su informazioni visive e GPS, corrispondenza on-line dei punti di riferimento e fusione di localizzazione con la visione monoculare-inerziale del contachilometri. Vengono ricavate la funzione di costo e la matrice giacobina della finestra scorrevole basata su VIO strettamente accoppiati e la funzione di errore di riproiezione basata su punti di riferimento. Testati su una delle sequenze di Odometria KITTI, i risultati hanno dimostrato che la mappatura dei punti di riferimento basata su una mappa a priori può migliorare notevolmente la precisione di localizzazione dell'odometro inerziale della visione monoculare.

Research on vehicle perception and localization system based on monocular camera and IMU

ZHAO, PENGPENG
2019/2020

Abstract

Vehicle perception and localization systems based on monocular camera and inertial measurement units are currently attracting more and more attention. This paper studies the visual perception of vehicles in a highly dynamic urban environment, carries on research on the static environmental perception such as traffic signs and the perception of vehicles in dynamic environment. Based on the identification and detection of traffic signs, the establishment and utilization of road maps are explored. Firstly, the traffic signs recognition method based on cascade convolutional neural networks is studied. The cascading convolutional neural network is light weight and fast. It can achieve good result on tasks like detection of traffic signs which has specific color and shape features. The performance of the model is tested on the traffic signs open-access datasets. The experimental results show that the model can meet the system requirements. Secondly, it analyzes the shortcomings of the existing traffic signs classification datasets. Then the prototype-based one-sample learning method is selected to classify the traffic signs. Utilizing the reparameterization technique, the differential loss function was derived. The experimental results show that when there is a new category that have not been seen in the training set, the algorithm can still achieve an accuracy of eighty percent for these new classes. Thirdly, the multi-vehicle tracking in dynamic scenes is studied. Object tracking algorithm based on optical flow method is explained. A Kalman filter is designed to get better results. The object detection and object tracking were implemented as a double-thread system so that the real-time requirement can be satisfied. Finally, the establishment of a priori map based on visual and GPS information, on-line landmark matching and localization fusion with monocular vision-inertial odometer are studied. The cost function and Jacobian matrix of the sliding window based tightly coupled VIO and the reprojection error function based on landmarks are derived. Tested on one of the KITTI Odometry sequences, results have shown that landmark mapping based on a priori map can greatly improve the localization accuracy of the monocular vision-inertial odometer.
ING - Scuola di Ingegneria Industriale e dell'Informazione
24-lug-2020
2019/2020
I sistemi di percezione e localizzazione dei veicoli basati su telecamere monoculari e unità di misurazione inerziale stanno attirando sempre più attenzione. Questo documento studia la percezione visiva dei veicoli in un ambiente urbano altamente dinamico, svolge ricerche sulla percezione ambientale statica come i segnali stradali e la percezione dei veicoli in un ambiente dinamico. Sulla base dell'identificazione e del rilevamento dei segnali stradali, vengono esplorate la creazione e l'utilizzo di mappe stradali. In primo luogo, viene studiato il metodo di riconoscimento dei segnali stradali basato su reti neurali convoluzionali a cascata. La rete neurale convoluzionale a cascata è leggera e veloce. Può ottenere buoni risultati su attività come il rilevamento di segnali stradali con specifiche caratteristiche di colore e forma. Le prestazioni del modello sono testate sui set di dati ad accesso aperto dei segnali stradali. I risultati sperimentali mostrano che il modello può soddisfare i requisiti di sistema. In secondo luogo, analizza le carenze dei set di dati di classificazione dei segnali stradali esistenti. Quindi viene selezionato il metodo di apprendimento a un campione basato su prototipo per classificare i segnali stradali. Utilizzando la tecnica di riparametrizzazione, è stata derivata la funzione di perdita differenziale. I risultati sperimentali mostrano che quando c'è una nuova categoria che non è stata vista nel set di addestramento, l'algoritmo può ancora raggiungere una precisione dell'ottanta per cento per queste nuove classi. In terzo luogo, viene studiato il tracciamento di più veicoli in scene dinamiche. Viene spiegato l'algoritmo di tracciamento degli oggetti basato sul metodo del flusso ottico. Un filtro Kalman è progettato per ottenere risultati migliori. Il rilevamento e il rilevamento degli oggetti sono stati implementati come un sistema a doppio thread in modo da soddisfare i requisiti in tempo reale. Infine, viene studiata la creazione di una mappa a priori basata su informazioni visive e GPS, corrispondenza on-line dei punti di riferimento e fusione di localizzazione con la visione monoculare-inerziale del contachilometri. Vengono ricavate la funzione di costo e la matrice giacobina della finestra scorrevole basata su VIO strettamente accoppiati e la funzione di errore di riproiezione basata su punti di riferimento. Testati su una delle sequenze di Odometria KITTI, i risultati hanno dimostrato che la mappatura dei punti di riferimento basata su una mappa a priori può migliorare notevolmente la precisione di localizzazione dell'odometro inerziale della visione monoculare.
File allegati
File Dimensione Formato  
2020_07_ZHAO.pdf

accessibile in internet solo dagli utenti autorizzati

Dimensione 11.43 MB
Formato Adobe PDF
11.43 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/167529