In the last years a lot of improvements have been achieved in the Computer Vision field thanks to new and powerful parallel architectures, which can process huge amounts of data in short times, giving the possibility to develop and study new solutions otherwise not achievable. One of the typical problems that must be solved in this research area is the so called Object Detection Problem, i.e. the need to identify, in the most robust way, position and size of objects in images and videos. Despite the great efforts made by a lot of researchers to solve the detection problem, today, we still cannot consider it as completely solved because of the multiple issues and different conditions that may arise for each different image. Typical examples in this sense are: • The various environmental conditions where the systems can work, which affect aspects and colors of the targets • The different appearances that can be shown by distinct objects of the same class • The possible occlusions that a target can suffer At the state of the art a lot of different solutions are available that try to solve this problem. In particular, solutions based on Deep Neural Networks are arousing nowadays great interest for the results that they are able to achieve. These networks, thanks to their structure and complexity, are in fact not only able to face all the issues previously mentioned but also to carefully detect objects belonging to different classes, representing in this way a flexible, robust and unified solution to the detection problem. However, due to their wide and deep structure, these solutions typically show high computational loads, presenting in this way a reduced appeal for what can concern any real time application. The goal of this thesis is the realization of a systems based on this kind of architectures and aimed at extending their typical offline application to real-time scenarios, where in addition to the accuracy of the information extracted also the speed of the implemented solutions plays an important role.

Negli ultimi anni sono stati fatti grandi miglioramenti nel campo della Computer Vision grazie a nuove e potenti architetture parallele in grado di processare grandi quantitativi di dati in poco tempo, permettendo di sviluppare e studiare nuove soluzioni altrimenti non analizzabili. Uno dei problemi più tipici che in tale ambito si deve affrontare è rappresentato dalla cosiddetta Object Detection, ossia dalla necessità di identificare, nella maniera più robusta possibile, posizionamento e dimensione di oggetti interessanti all’interno di immagini o video. Tale problema, benchè oggetto di moltissimi studi durante il corso degli anni, risulta ancora oggi essere soltanto parzialmente risolto a causa delle molteplici difficoltà e problematiche che esso presenta. Esempi tipici in tal senso sono dati da: • Le molteplici condizioni ambientali in cui il sistema può dover operare, che affliggono aspetto e colore dei target. • Le molteplici forme o strutture che istanze di una medesima classe di oggetti possono presentare. • Le possibili occlusioni totali o parziali a cui i target possono essere sottoposti. Allo stato dell’arte sono disponibili moltissime soluzioni per far fronte a questa situazione. In special modo, architetture basate su Deep Neural Network stanno suscitando grande interesse per i risultati che permettono di raggiungere. Queste reti neurali profonde infatti, grazie alla loro struttura vasta e complessa, sono in grado non soltanto di far fronte a tutte le problematiche appena esposte, ma anche di riconoscere adeguatamente molteplici classi di oggetti. Esse rappresentano in tal modo una soluzione flessibile, robusta ed unificata al problema presentato, anche se computazionalmente pesante a causa delle loro dimensioni. Obiettivo di questo lavoro è quindi quello di realizzare una architettura di questo tipo basata su Deep Neural Network e mirata ad estenderne il funzionamento ad un contesto real-time, dove oltre all’accuratezza dei risultati prodotti anche la velocità delle soluzioni proposte gioca un ruolo fondamentale.

PEDESTRIAN DETECTION AND TRACKING IN LOW QUALITY IMAGES WITH DEEP NEURAL NETWORKS

MONTI, FEDERICO
2014/2015

Abstract

In the last years a lot of improvements have been achieved in the Computer Vision field thanks to new and powerful parallel architectures, which can process huge amounts of data in short times, giving the possibility to develop and study new solutions otherwise not achievable. One of the typical problems that must be solved in this research area is the so called Object Detection Problem, i.e. the need to identify, in the most robust way, position and size of objects in images and videos. Despite the great efforts made by a lot of researchers to solve the detection problem, today, we still cannot consider it as completely solved because of the multiple issues and different conditions that may arise for each different image. Typical examples in this sense are: • The various environmental conditions where the systems can work, which affect aspects and colors of the targets • The different appearances that can be shown by distinct objects of the same class • The possible occlusions that a target can suffer At the state of the art a lot of different solutions are available that try to solve this problem. In particular, solutions based on Deep Neural Networks are arousing nowadays great interest for the results that they are able to achieve. These networks, thanks to their structure and complexity, are in fact not only able to face all the issues previously mentioned but also to carefully detect objects belonging to different classes, representing in this way a flexible, robust and unified solution to the detection problem. However, due to their wide and deep structure, these solutions typically show high computational loads, presenting in this way a reduced appeal for what can concern any real time application. The goal of this thesis is the realization of a systems based on this kind of architectures and aimed at extending their typical offline application to real-time scenarios, where in addition to the accuracy of the information extracted also the speed of the implemented solutions plays an important role.
TAGLIASACCHI, MARCO
ING - Scuola di Ingegneria Industriale e dell'Informazione
21-dic-2015
2014/2015
Negli ultimi anni sono stati fatti grandi miglioramenti nel campo della Computer Vision grazie a nuove e potenti architetture parallele in grado di processare grandi quantitativi di dati in poco tempo, permettendo di sviluppare e studiare nuove soluzioni altrimenti non analizzabili. Uno dei problemi più tipici che in tale ambito si deve affrontare è rappresentato dalla cosiddetta Object Detection, ossia dalla necessità di identificare, nella maniera più robusta possibile, posizionamento e dimensione di oggetti interessanti all’interno di immagini o video. Tale problema, benchè oggetto di moltissimi studi durante il corso degli anni, risulta ancora oggi essere soltanto parzialmente risolto a causa delle molteplici difficoltà e problematiche che esso presenta. Esempi tipici in tal senso sono dati da: • Le molteplici condizioni ambientali in cui il sistema può dover operare, che affliggono aspetto e colore dei target. • Le molteplici forme o strutture che istanze di una medesima classe di oggetti possono presentare. • Le possibili occlusioni totali o parziali a cui i target possono essere sottoposti. Allo stato dell’arte sono disponibili moltissime soluzioni per far fronte a questa situazione. In special modo, architetture basate su Deep Neural Network stanno suscitando grande interesse per i risultati che permettono di raggiungere. Queste reti neurali profonde infatti, grazie alla loro struttura vasta e complessa, sono in grado non soltanto di far fronte a tutte le problematiche appena esposte, ma anche di riconoscere adeguatamente molteplici classi di oggetti. Esse rappresentano in tal modo una soluzione flessibile, robusta ed unificata al problema presentato, anche se computazionalmente pesante a causa delle loro dimensioni. Obiettivo di questo lavoro è quindi quello di realizzare una architettura di questo tipo basata su Deep Neural Network e mirata ad estenderne il funzionamento ad un contesto real-time, dove oltre all’accuratezza dei risultati prodotti anche la velocità delle soluzioni proposte gioca un ruolo fondamentale.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
main.pdf

accessibile in internet per tutti

Descrizione: Testo della tesi
Dimensione 14.42 MB
Formato Adobe PDF
14.42 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/116324