Metrological characterisation of deep learning-based object detection

Biblioteche e Archivi
POLITesi - Archivio digitale delle tesi di laurea e di dottorato

This work focuses on the metrological investigation of the neural networks for Object Detection YOLOv3 and RetinaNet. The error in the localization of objects through bounding boxes is analysed with a sub-pixel precision, by also submitting the neural networks to images with white noise, smoothing gaussian blur and imprecise labelling. While evaluating their accuracy to locate objects, a comparison with the matching algorithms sounds like an obligation. MVTec HALCON and its Deep Learning functionalities are used, as well as open source implementations. Image rescaling and automatic labelling for the dataset collection are also analysed and represent additional innovative contributions. The latter is specifically needed for the achievement of the final objectives because it is used as reference model for the comparison of the mentioned methodologies. Outcomes evidenced the effectiveness of the neural networks to ensure sub-pixel uncertainty in the object localization. In any case, Shape-based Matching still remains the most powerful algorithm in case of standard detection conditions due to the better results. The point in favour of Deep Learning is its detection ability in case of noisy conditions: even if the uncertainty values increase, the lack of recognition of all the objects inside the dataset is sensibly lower than Shape-based Matching.

Questo lavoro si focalizza sull'indagine metrologica delle reti neurali YOLOv3 e RetinaNet per il rilevamento di oggetti. L'errore nella localizzazione degli oggetti attraverso bounding box viene analizzato con una precisione sub-pixel, sottoponendo le reti neurali anche ad immagini con rumore bianco, sfocatura gaussiana e etichettatura imprecisa. Mentre si valuta la loro precisione per localizzare gli oggetti, un confronto con gli algoritmi di matching suona come un obbligo. MVTec HALCON e le sue funzionalità di Deep Learning sono utilizzate, così come le implementazioni open source. Anche il ridimensionamento delle immagini e l'etichettatura automatica per la raccolta dei dati sono analizzati e rappresentano degli ulteriori contributi innovativi. Quest'ultimo è specificamente necessario per il raggiungimento degli obiettivi finali perché viene utilizzato come modello di riferimento per il confronto delle metodologie sopracitate. I risultati hanno evidenziato l'efficacia delle reti neurali per garantire l'incertezza sub-pixel nella localizzazione degli oggetti. In ogni caso, lo Shape-based Matching rimane ancora l'algoritmo più potente in caso di condizioni standard di rilevazione grazie ai migliori risultati che fornisce. Il punto a favore del Deep Learning è la sua capacità di identificazione in caso di condizioni rumorose: anche se i valori di incertezza aumentano, la mancanza di riconoscimento di tutti gli oggetti all'interno del dataset è sensibilmente inferiore a quelli della tecnologia Shape-based Matching.

Metrological characterisation of deep learning-based object detection

MANNELLA, ANDREA

2018/2019

Abstract

This work focuses on the metrological investigation of the neural networks for Object Detection YOLOv3 and RetinaNet. The error in the localization of objects through bounding boxes is analysed with a sub-pixel precision, by also submitting the neural networks to images with white noise, smoothing gaussian blur and imprecise labelling. While evaluating their accuracy to locate objects, a comparison with the matching algorithms sounds like an obligation. MVTec HALCON and its Deep Learning functionalities are used, as well as open source implementations. Image rescaling and automatic labelling for the dataset collection are also analysed and represent additional innovative contributions. The latter is specifically needed for the achievement of the final objectives because it is used as reference model for the comparison of the mentioned methodologies. Outcomes evidenced the effectiveness of the neural networks to ensure sub-pixel uncertainty in the object localization. In any case, Shape-based Matching still remains the most powerful algorithm in case of standard detection conditions due to the better results. The point in favour of Deep Learning is its detection ability in case of noisy conditions: even if the uncertainty values increase, the lack of recognition of all the objects inside the dataset is sensibly lower than Shape-based Matching.

Scheda breve

Scheda completa

	Relatore
	
			TARABINI, MARCO
		
	Correlatore/i
	
			SALA, REMO
SALA, VITTORIO
		
	Scuola / Dip.
	
			ING  - Scuola di Ingegneria Industriale e dell'Informazione
		
	Data
	
			29-apr-2020
		
	Anno accademico
	
			2018/2019
		
	Abstract in italiano
	
			Questo lavoro si focalizza sull'indagine metrologica delle reti neurali YOLOv3 e RetinaNet per il rilevamento di oggetti. L'errore nella localizzazione degli oggetti attraverso bounding box viene analizzato con una precisione sub-pixel, sottoponendo le reti neurali anche ad immagini con rumore bianco, sfocatura gaussiana e etichettatura imprecisa. Mentre si valuta la loro precisione per localizzare gli oggetti, un confronto con gli algoritmi di matching suona come un obbligo. MVTec HALCON e le sue funzionalità di Deep Learning sono utilizzate, così come le implementazioni open source. Anche il ridimensionamento delle immagini e l'etichettatura automatica per la raccolta dei dati sono analizzati e rappresentano degli ulteriori contributi innovativi. Quest'ultimo è specificamente necessario per il raggiungimento degli obiettivi finali perché viene utilizzato come modello di riferimento per il confronto delle metodologie sopracitate. I risultati hanno evidenziato l'efficacia delle reti neurali per garantire l'incertezza sub-pixel nella localizzazione degli oggetti. In ogni caso, lo Shape-based Matching rimane ancora l'algoritmo più potente in caso di condizioni standard di rilevazione grazie ai migliori risultati che fornisce. Il punto a favore del Deep Learning è la sua capacità di identificazione in caso di condizioni rumorose: anche se i valori di incertezza aumentano, la mancanza di riconoscimento di tutti gli oggetti all'interno del dataset è sensibilmente inferiore a quelli della tecnologia Shape-based Matching.
		
	Tipo di documento
	
			Tesi di laurea Magistrale
		
	Appare nelle tipologie:
	
			Tesi di laurea Magistrale

File allegati

File	Dimensione	Formato
Tesi_Mannella.pdf non accessibile Descrizione: Testo della tesi Dimensione 5.65 MB Formato Adobe PDF Visualizza/Apri	5.65 MB	Adobe PDF	Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/152930