Nowadays Object Detection models are widely deployed for many real-world application with great success. At the same time aerial images availability has increased thanks to the growth of satellites in orbit and the widespread of drones for common usage. In this thesis, we show the entire pipeline to face when building a product using Deep Learning-based solution for Object Detection. Our work is the full stack going from the search and design of the predictive model up to its final deployment in a real-world use case. We fist summarize the state of art for Object Detection describing the most successful approaches, underlining their limits, advantages and disadvantages. Then, according to our final goal and design constraints, we pick an architecture and a dataset that become our case study. We implement our Deep Learning architecture, drawn from the state of art, and we also modify it in order to solve a refinement of the Object Detection task, that is to find arbitrarily rotated objects. First we explore and study our chosen dataset of aerial images in order to better suit our learning algorithm and apply a proper data preprocessing. Then we train and validate our models on the proposed dataset, showing the goodness and limits of each of them with quantitative and qualitative metrics. At the end we describe our use case Drones112 video analytics, that is a microservice wrapping our trained models for detecting objects on videos coming from drones' camera.

Al giorno d'oggi modelli per rilevamento di oggetti sono ampiamente impiegati per tante applicazioni nel mondo reale con grande successo. Allo stesso tempo la disponibilità di immagini aeree è aumentata grazie all'aumento di satelliti in orbita e la diffusione di droni per uso comune. In questa tesi mostriamo l'intera procedura da affrontare quanto si costruisce un prodotto con una soluzione per rilevamento oggetti basata su apprendimento approfondito. Prima riassumiamo l'intero stato dell'arte per il rilevamento di oggetti descrivendo gli approcci più affermati sottolineando i loro limiti, vantaggi e svantaggi. Poi, secondo il nostro obiettivo finale e i vincoli di design, scegliamo un'architettura e un dataset che diventano in nostro caso di studio. Implementiamo la nostra architettura di apprendimento approfondito, presa dallo stato dell'arte, e la modifichiamo anche in modo da risolvere un raffinamento del compito di rilevamento oggetti, che è trovare oggetti ruotati in modo arbitrario. Prima esploriamo e studiamo il nostro dataset, in modo da adattare meglio il nostro algoritmo di apprendimento e applicare un appropriato trattamento dei dati. Poi alleniamo e validiamo i nostri modelli sul dataset proposto, mostrando la bontà e i limiti di ognuno di essi con delle metriche quantitative e qualitative. Alla fine descriviamo il nostro caso d'uso Drone112 analisi video, che è un micro servizio che avvolge i nostri modelli allenati per trovare oggetti su video che arrivano da videocamera di droni.

Object detection on aerial images using region proposal deep architectures : a full stack approach

PICCIOTTI, FRANCESCO
2017/2018

Abstract

Nowadays Object Detection models are widely deployed for many real-world application with great success. At the same time aerial images availability has increased thanks to the growth of satellites in orbit and the widespread of drones for common usage. In this thesis, we show the entire pipeline to face when building a product using Deep Learning-based solution for Object Detection. Our work is the full stack going from the search and design of the predictive model up to its final deployment in a real-world use case. We fist summarize the state of art for Object Detection describing the most successful approaches, underlining their limits, advantages and disadvantages. Then, according to our final goal and design constraints, we pick an architecture and a dataset that become our case study. We implement our Deep Learning architecture, drawn from the state of art, and we also modify it in order to solve a refinement of the Object Detection task, that is to find arbitrarily rotated objects. First we explore and study our chosen dataset of aerial images in order to better suit our learning algorithm and apply a proper data preprocessing. Then we train and validate our models on the proposed dataset, showing the goodness and limits of each of them with quantitative and qualitative metrics. At the end we describe our use case Drones112 video analytics, that is a microservice wrapping our trained models for detecting objects on videos coming from drones' camera.
ING - Scuola di Ingegneria Industriale e dell'Informazione
16-apr-2019
2017/2018
Al giorno d'oggi modelli per rilevamento di oggetti sono ampiamente impiegati per tante applicazioni nel mondo reale con grande successo. Allo stesso tempo la disponibilità di immagini aeree è aumentata grazie all'aumento di satelliti in orbita e la diffusione di droni per uso comune. In questa tesi mostriamo l'intera procedura da affrontare quanto si costruisce un prodotto con una soluzione per rilevamento oggetti basata su apprendimento approfondito. Prima riassumiamo l'intero stato dell'arte per il rilevamento di oggetti descrivendo gli approcci più affermati sottolineando i loro limiti, vantaggi e svantaggi. Poi, secondo il nostro obiettivo finale e i vincoli di design, scegliamo un'architettura e un dataset che diventano in nostro caso di studio. Implementiamo la nostra architettura di apprendimento approfondito, presa dallo stato dell'arte, e la modifichiamo anche in modo da risolvere un raffinamento del compito di rilevamento oggetti, che è trovare oggetti ruotati in modo arbitrario. Prima esploriamo e studiamo il nostro dataset, in modo da adattare meglio il nostro algoritmo di apprendimento e applicare un appropriato trattamento dei dati. Poi alleniamo e validiamo i nostri modelli sul dataset proposto, mostrando la bontà e i limiti di ognuno di essi con delle metriche quantitative e qualitative. Alla fine descriviamo il nostro caso d'uso Drone112 analisi video, che è un micro servizio che avvolge i nostri modelli allenati per trovare oggetti su video che arrivano da videocamera di droni.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
tesi.pdf

solo utenti autorizzati dal 05/04/2020

Descrizione: thesis
Dimensione 19.87 MB
Formato Adobe PDF
19.87 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/147413