Image classification is a computer vision task, whose goal is to recognize, in a fully automated manner, the presence of specific objects within digital images. Classification can be divided into two main sub-tasks, which are addressed exploiting deep neural models: binary classification and multi-class classification, which in turn is divided into single-label and multi-label classification. The architectures of the models used are very complex and often difficult to interpret; in fact, they are often evaluated as “black-boxes” using standard evaluation metrics such as Accuracy, Precision, Recall, or Average Precision. ODIN is a framework that, exploiting the meta-annotations provided with the input (e.g. object size, image color space, etc.), offers the possibility to perform multiple analyses at different levels of granularity for the diagnosis of the performance of models for object detection and instance segmentation, providing multiple cues for improvement. In this work is presented the extension of ODIN, in which the following has been integrated: the support for the evaluation of classification models, several metrics for performance evaluation, the analysis for the evaluation of the model calibration, and a comprehensive tool with a graphical interface for being able to add annotations and/or meta-annotations to input images. Finally, to demonstrate the utility and effectiveness of the different analyses and evaluation metrics provided by the framework, the implemented analyses have been illustrated by applying them to two different data sets: the ArtDL data set and the Landfills data set, which refer to the multi-class multi-label task and the binary classification task respectively.

La classificazione delle immagini è uno degli obiettivi della visione artificiale, il cui scopo è riconoscere, in modo completamente automatico, la presenza di specifici oggetti all’interno di immagini digitali. La classificazione può essere suddivisa in due principali sotto categorie, che vengono affrontate attraverso l’utilizzo di modelli neurali profondi: la classificazione binaria e la classificazione multi-classe, che a sua volta si divide in classificazione a singola-etichetta e classificazione a multi-etichetta. Le architetture dei modelli utilizzati sono molto complesse e spesso difficili da interpretare; infatti, sono spesso valutati come “scatole chiuse” utilizzando metriche di valutazione standard come Accuracy, Precision, Recall, o Average Precision. ODIN è un framework che, sfruttando le meta-annotazioni fornite con l’input (es. dimensione dell’oggetto, colorazione dell’immagine, ecc.), offre la possibilità di effettuare molteplici analisi a diversi livelli di granularità per la diagnosi delle prestazioni di modelli per il rilevamento di oggetti e per la segmentazione delle istanze, offrendo molteplici spunti per il miglioramento. In questo lavoro viene presentata l’estensione di ODIN, in cui è stato implementato: il supporto per la valutazione dei modelli per la classificazione, numerose metriche per la valutazione delle prestazioni, l’analisi per la valutazione della calibrazione del modello, e uno strumento completo con un’interfaccia grafica per poter aggiungere annotazioni e/o meta-annotazioni alle immagini di input. Infine, per dimostrare l’utilità e l’efficacia delle diverse analisi e metriche di valutazione fornite dal framework, le analisi implementate sono state illustrate applicandole a due diversi set di dati: il set di dati ArtDL e il set di dati Landfills, che si riferiscono rispettivamente alla classificazione multi-classe multi-etichetta e alla classificazione binaria.

The ODIN framework, a tool for image classification diagnosis

ZANGRANDO, NICCOLÒ
2020/2021

Abstract

Image classification is a computer vision task, whose goal is to recognize, in a fully automated manner, the presence of specific objects within digital images. Classification can be divided into two main sub-tasks, which are addressed exploiting deep neural models: binary classification and multi-class classification, which in turn is divided into single-label and multi-label classification. The architectures of the models used are very complex and often difficult to interpret; in fact, they are often evaluated as “black-boxes” using standard evaluation metrics such as Accuracy, Precision, Recall, or Average Precision. ODIN is a framework that, exploiting the meta-annotations provided with the input (e.g. object size, image color space, etc.), offers the possibility to perform multiple analyses at different levels of granularity for the diagnosis of the performance of models for object detection and instance segmentation, providing multiple cues for improvement. In this work is presented the extension of ODIN, in which the following has been integrated: the support for the evaluation of classification models, several metrics for performance evaluation, the analysis for the evaluation of the model calibration, and a comprehensive tool with a graphical interface for being able to add annotations and/or meta-annotations to input images. Finally, to demonstrate the utility and effectiveness of the different analyses and evaluation metrics provided by the framework, the implemented analyses have been illustrated by applying them to two different data sets: the ArtDL data set and the Landfills data set, which refer to the multi-class multi-label task and the binary classification task respectively.
MILANI, FEDERICO
TORRES, ROCIO NAHIME
ING - Scuola di Ingegneria Industriale e dell'Informazione
23-lug-2021
2020/2021
La classificazione delle immagini è uno degli obiettivi della visione artificiale, il cui scopo è riconoscere, in modo completamente automatico, la presenza di specifici oggetti all’interno di immagini digitali. La classificazione può essere suddivisa in due principali sotto categorie, che vengono affrontate attraverso l’utilizzo di modelli neurali profondi: la classificazione binaria e la classificazione multi-classe, che a sua volta si divide in classificazione a singola-etichetta e classificazione a multi-etichetta. Le architetture dei modelli utilizzati sono molto complesse e spesso difficili da interpretare; infatti, sono spesso valutati come “scatole chiuse” utilizzando metriche di valutazione standard come Accuracy, Precision, Recall, o Average Precision. ODIN è un framework che, sfruttando le meta-annotazioni fornite con l’input (es. dimensione dell’oggetto, colorazione dell’immagine, ecc.), offre la possibilità di effettuare molteplici analisi a diversi livelli di granularità per la diagnosi delle prestazioni di modelli per il rilevamento di oggetti e per la segmentazione delle istanze, offrendo molteplici spunti per il miglioramento. In questo lavoro viene presentata l’estensione di ODIN, in cui è stato implementato: il supporto per la valutazione dei modelli per la classificazione, numerose metriche per la valutazione delle prestazioni, l’analisi per la valutazione della calibrazione del modello, e uno strumento completo con un’interfaccia grafica per poter aggiungere annotazioni e/o meta-annotazioni alle immagini di input. Infine, per dimostrare l’utilità e l’efficacia delle diverse analisi e metriche di valutazione fornite dal framework, le analisi implementate sono state illustrate applicandole a due diversi set di dati: il set di dati ArtDL e il set di dati Landfills, che si riferiscono rispettivamente alla classificazione multi-classe multi-etichetta e alla classificazione binaria.
File allegati
File Dimensione Formato  
2021_07_Zangrando.pdf

accessibile in internet solo dagli utenti autorizzati

Dimensione 6.8 MB
Formato Adobe PDF
6.8 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/177405