Fine­-grained Visual Classification (FGVC) is a rapidly growing field in image classifica­tion. However, it is a challenging task due to sub­categories sharing subtle differences. Existing approaches tackle this problem by firstly extracting discriminative regions us­ing part localization or object localization or Region Proposal Networks (RPN), then applying Convolutional Neural Network (CNN) or SVM classifier on those regions. In this work, with the purpose of simplifying the above-complicated pipeline while keep­ing high accuracy, we get inspired by the one­-stage object detection model YOLO and design a one­-stage end­-to-­end object detector model for FGVC. Specifically, we ap­ply YOLOv5 as a baseline model and replace its Path Aggregation Network (PANet) structure with Weighted Bi­directional Feature Pyramid Network (BiFPN) structure to efficiently fuse information from different resolutions. We conduct experiments on different classification and localization weight ratios to guide choosing loss weights in different scenarios. We have proved the viability of the one­-stage detector model YOLO on FGVC, which has 87.1% top­1 accuracy on the FGVC dataset CUB-­200-­2011. Furthermore, we have designed a more accurate one-­stage model, achieving 88.1% ac­curacy, which is the most accurate method compared to the existing localization state­-of­-the­-art models. Finally, we have shown that the higher the classification loss weight, the faster the convergence speed, while increasing slightly localization loss weight can help achieve a more accurate classification but resulting in slower convergence.

La classificazione visiva a grana fine (FGVC) è un campo in rapida crescita nella classificazione delle immagini. Tuttavia, è un compito impegnativo a causa delle sottocategorie che condividono sottili differenze. Gli approcci esistenti affrontano questo problema estraendo in primo luogo le regioni discriminanti utilizzando la localizzazione parziale o la localizzazione degli oggetti o le reti di proposte regionali (RPN), quindi applicando la rete neurale convoluzionale (CNN) o il classificatore SVM su quelle regioni. In questo lavoro, con lo scopo di semplificare la pipeline sopra complicata mantenendo un'elevata precisione, ci ispiriamo al modello di rilevamento di oggetti a uno stadio YOLO e progettiamo un modello di rilevatore di oggetti end-to-end a uno stadio per FGVC. Nello specifico, applichiamo YOLOv5 come modello di base e sostituiamo la sua struttura Path Aggregation Network (PANet) con la struttura Weighted Bidirezionale Feature Pyramid Network (BiFPN) per fondere in modo efficiente le informazioni provenienti da diverse risoluzioni. Conduciamo esperimenti su diversi rapporti di peso di classificazione e localizzazione per guidare la scelta dei pesi di perdita in diversi scenari. Abbiamo dimostrato la fattibilità del modello di rivelatore a uno stadio YOLO su FGVC, che ha una precisione top1 dell'87,1% sul set di dati FGVC CUB-200-2011. Inoltre, abbiamo progettato un modello a una fase più accurato, ottenendo un'accuratezza dell'88,1%, che è il metodo più accurato rispetto ai modelli all'avanguardia di localizzazione esistenti. Infine, abbiamo dimostrato che maggiore è il peso della perdita di classificazione, maggiore è la velocità di convergenza, mentre aumentare leggermente il peso della perdita di localizzazione può aiutare a ottenere una classificazione più accurata ma con conseguente convergenza più lenta.

One stage fine-grained visual classification

ZENG, XING
2020/2021

Abstract

Fine­-grained Visual Classification (FGVC) is a rapidly growing field in image classifica­tion. However, it is a challenging task due to sub­categories sharing subtle differences. Existing approaches tackle this problem by firstly extracting discriminative regions us­ing part localization or object localization or Region Proposal Networks (RPN), then applying Convolutional Neural Network (CNN) or SVM classifier on those regions. In this work, with the purpose of simplifying the above-complicated pipeline while keep­ing high accuracy, we get inspired by the one­-stage object detection model YOLO and design a one­-stage end­-to-­end object detector model for FGVC. Specifically, we ap­ply YOLOv5 as a baseline model and replace its Path Aggregation Network (PANet) structure with Weighted Bi­directional Feature Pyramid Network (BiFPN) structure to efficiently fuse information from different resolutions. We conduct experiments on different classification and localization weight ratios to guide choosing loss weights in different scenarios. We have proved the viability of the one­-stage detector model YOLO on FGVC, which has 87.1% top­1 accuracy on the FGVC dataset CUB-­200-­2011. Furthermore, we have designed a more accurate one-­stage model, achieving 88.1% ac­curacy, which is the most accurate method compared to the existing localization state­-of­-the­-art models. Finally, we have shown that the higher the classification loss weight, the faster the convergence speed, while increasing slightly localization loss weight can help achieve a more accurate classification but resulting in slower convergence.
VLASSOV, VLADIMIR
LIU, YING
ING - Scuola di Ingegneria Industriale e dell'Informazione
23-lug-2021
2020/2021
La classificazione visiva a grana fine (FGVC) è un campo in rapida crescita nella classificazione delle immagini. Tuttavia, è un compito impegnativo a causa delle sottocategorie che condividono sottili differenze. Gli approcci esistenti affrontano questo problema estraendo in primo luogo le regioni discriminanti utilizzando la localizzazione parziale o la localizzazione degli oggetti o le reti di proposte regionali (RPN), quindi applicando la rete neurale convoluzionale (CNN) o il classificatore SVM su quelle regioni. In questo lavoro, con lo scopo di semplificare la pipeline sopra complicata mantenendo un'elevata precisione, ci ispiriamo al modello di rilevamento di oggetti a uno stadio YOLO e progettiamo un modello di rilevatore di oggetti end-to-end a uno stadio per FGVC. Nello specifico, applichiamo YOLOv5 come modello di base e sostituiamo la sua struttura Path Aggregation Network (PANet) con la struttura Weighted Bidirezionale Feature Pyramid Network (BiFPN) per fondere in modo efficiente le informazioni provenienti da diverse risoluzioni. Conduciamo esperimenti su diversi rapporti di peso di classificazione e localizzazione per guidare la scelta dei pesi di perdita in diversi scenari. Abbiamo dimostrato la fattibilità del modello di rivelatore a uno stadio YOLO su FGVC, che ha una precisione top1 dell'87,1% sul set di dati FGVC CUB-200-2011. Inoltre, abbiamo progettato un modello a una fase più accurato, ottenendo un'accuratezza dell'88,1%, che è il metodo più accurato rispetto ai modelli all'avanguardia di localizzazione esistenti. Infine, abbiamo dimostrato che maggiore è il peso della perdita di classificazione, maggiore è la velocità di convergenza, mentre aumentare leggermente il peso della perdita di localizzazione può aiutare a ottenere una classificazione più accurata ma con conseguente convergenza più lenta.
File allegati
File Dimensione Formato  
THESIS_XING_ZENG_938755.pdf

non accessibile

Dimensione 10.06 MB
Formato Adobe PDF
10.06 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/177188