This work focuses on the metrological investigation of the neural networks for Object Detection YOLOv3 and RetinaNet. The error in the localization of objects through bounding boxes is analysed with a sub-pixel precision, by also submitting the neural networks to images with white noise, smoothing gaussian blur and imprecise labelling. While evaluating their accuracy to locate objects, a comparison with the matching algorithms sounds like an obligation. MVTec HALCON and its Deep Learning functionalities are used, as well as open source implementations. Image rescaling and automatic labelling for the dataset collection are also analysed and represent additional innovative contributions. The latter is specifically needed for the achievement of the final objectives because it is used as reference model for the comparison of the mentioned methodologies. Outcomes evidenced the effectiveness of the neural networks to ensure sub-pixel uncertainty in the object localization. In any case, Shape-based Matching still remains the most powerful algorithm in case of standard detection conditions due to the better results. The point in favour of Deep Learning is its detection ability in case of noisy conditions: even if the uncertainty values increase, the lack of recognition of all the objects inside the dataset is sensibly lower than Shape-based Matching.

Questo lavoro si focalizza sull'indagine metrologica delle reti neurali YOLOv3 e RetinaNet per il rilevamento di oggetti. L'errore nella localizzazione degli oggetti attraverso bounding box viene analizzato con una precisione sub-pixel, sottoponendo le reti neurali anche ad immagini con rumore bianco, sfocatura gaussiana e etichettatura imprecisa. Mentre si valuta la loro precisione per localizzare gli oggetti, un confronto con gli algoritmi di matching suona come un obbligo. MVTec HALCON e le sue funzionalità di Deep Learning sono utilizzate, così come le implementazioni open source. Anche il ridimensionamento delle immagini e l'etichettatura automatica per la raccolta dei dati sono analizzati e rappresentano degli ulteriori contributi innovativi. Quest'ultimo è specificamente necessario per il raggiungimento degli obiettivi finali perché viene utilizzato come modello di riferimento per il confronto delle metodologie sopracitate. I risultati hanno evidenziato l'efficacia delle reti neurali per garantire l'incertezza sub-pixel nella localizzazione degli oggetti. In ogni caso, lo Shape-based Matching rimane ancora l'algoritmo più potente in caso di condizioni standard di rilevazione grazie ai migliori risultati che fornisce. Il punto a favore del Deep Learning è la sua capacità di identificazione in caso di condizioni rumorose: anche se i valori di incertezza aumentano, la mancanza di riconoscimento di tutti gli oggetti all'interno del dataset è sensibilmente inferiore a quelli della tecnologia Shape-based Matching.

Metrological characterisation of deep learning-based object detection

MANNELLA, ANDREA
2018/2019

Abstract

This work focuses on the metrological investigation of the neural networks for Object Detection YOLOv3 and RetinaNet. The error in the localization of objects through bounding boxes is analysed with a sub-pixel precision, by also submitting the neural networks to images with white noise, smoothing gaussian blur and imprecise labelling. While evaluating their accuracy to locate objects, a comparison with the matching algorithms sounds like an obligation. MVTec HALCON and its Deep Learning functionalities are used, as well as open source implementations. Image rescaling and automatic labelling for the dataset collection are also analysed and represent additional innovative contributions. The latter is specifically needed for the achievement of the final objectives because it is used as reference model for the comparison of the mentioned methodologies. Outcomes evidenced the effectiveness of the neural networks to ensure sub-pixel uncertainty in the object localization. In any case, Shape-based Matching still remains the most powerful algorithm in case of standard detection conditions due to the better results. The point in favour of Deep Learning is its detection ability in case of noisy conditions: even if the uncertainty values increase, the lack of recognition of all the objects inside the dataset is sensibly lower than Shape-based Matching.
SALA, REMO
SALA, VITTORIO
ING - Scuola di Ingegneria Industriale e dell'Informazione
29-apr-2020
2018/2019
Questo lavoro si focalizza sull'indagine metrologica delle reti neurali YOLOv3 e RetinaNet per il rilevamento di oggetti. L'errore nella localizzazione degli oggetti attraverso bounding box viene analizzato con una precisione sub-pixel, sottoponendo le reti neurali anche ad immagini con rumore bianco, sfocatura gaussiana e etichettatura imprecisa. Mentre si valuta la loro precisione per localizzare gli oggetti, un confronto con gli algoritmi di matching suona come un obbligo. MVTec HALCON e le sue funzionalità di Deep Learning sono utilizzate, così come le implementazioni open source. Anche il ridimensionamento delle immagini e l'etichettatura automatica per la raccolta dei dati sono analizzati e rappresentano degli ulteriori contributi innovativi. Quest'ultimo è specificamente necessario per il raggiungimento degli obiettivi finali perché viene utilizzato come modello di riferimento per il confronto delle metodologie sopracitate. I risultati hanno evidenziato l'efficacia delle reti neurali per garantire l'incertezza sub-pixel nella localizzazione degli oggetti. In ogni caso, lo Shape-based Matching rimane ancora l'algoritmo più potente in caso di condizioni standard di rilevazione grazie ai migliori risultati che fornisce. Il punto a favore del Deep Learning è la sua capacità di identificazione in caso di condizioni rumorose: anche se i valori di incertezza aumentano, la mancanza di riconoscimento di tutti gli oggetti all'interno del dataset è sensibilmente inferiore a quelli della tecnologia Shape-based Matching.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
Tesi_Mannella.pdf

non accessibile

Descrizione: Testo della tesi
Dimensione 5.65 MB
Formato Adobe PDF
5.65 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/152930