Vehicle make-model recognition and 3D-localization

The goal of this Thesis is to recognize through the Computer Vision the Make-Model of a vehicle in different situations of traffic and localizing its position with respect to the camera. The key aspect in the Make-Model recognition has been identified in the training of already existing State-Of-The-Art methods in Object Detection and Image Classification on the domain of interest. As a consequence an essential step was the collection of a dataset representative and various improved with techniques such as active learning. The problem of vehicle localization has been faced as the equivalent of a plane localization in the space, in this case the plane of the wheels. With this purpose we exploited some known elements of the classified vehicle as the wheels distance and the diameter of the rims. Knowing the real words distances of four points and identifying the correspondent ones in the image was possible to localize the plane with respect to the camera. In order to obtain a complete localization we computed the three translational vectors and the three angles of rotation. The algorithm presented works under the assumption of an already Calibrated Camera. The internal Camera parameters were identified through the Zhang’s Algorithm. As a last step the algorithm was improved through the license plate detection fundamental for the identification of the Rotation Matrix whenever other elements could not be recognized, exploiting at most the three axes of the vehicle and its symmetries. Iterating the algorithm for each frame we obtained a complete trajectory, determining over possible the velocity.

L’obbiettivo di questa Tesi è quello di riconoscere attraverso la Computer Vision il Modello e la Marca di un automobile nelle diverse situazioni di traffico e localizzarne la posizione rispetto alla telecamera. L’aspetto chiave per il riconoscimento del Modello e Marca è stato identificato nell’addestramento dei metodi allo stato dell’arte nel campo del rilevamento degli oggetti e della classificazione delle immagini nel dominio di interesse. Come conseguenza un elemento essenziale è stato il raccoglimento di un set di dati che potesse essere rappresentativo e vario migliorandolo con tecniche di apprendimento attivo. Il problema di localizzazione di un veicolo invece è stato affrontato come l’equivalente di localizzazione di un piano nello spazio, in questo caso il piano delle ruote. Con questo scopo sono stati utilizzati alcuni elementi noti del veicolo classificato come la distanza tra le ruote e il diametro dei cerchioni. Conoscendo le distanze reali tra quattro punti e rilevando i punti corrispondenti nell’immagine è stato possibile localizzare il piano rispetto alla telecamera. Per ottenere una localizzazione completa sono state calcolate le tre componenti del vettore traslazione e i tre angoli di rotazione. L’algoritmo presentato funziona sotto l’assunzione di una Camera già calibrata. I parametri intrinseci della camera sono stati determinati attraverso l’algoritmo di Zhang. Come ultimo step l’algoritmo finale è stato rafforzato con il rilevamento della targa fondamentale per l’identificazione della matrice di Rotazione qualora altri elementi non fossero riconoscibili, sfruttando quindi appieno i tre assi del veicolo e le sue simmetrie. Iterando l’algoritmo per ciascun frame abbiamo ottenuto una traiettoria completa di esso determinando ove possibile la velocità.