One stage fine-grained visual classification

Fine-grained Visual Classification (FGVC) is a rapidly growing field in image classification. However, it is a challenging task due to subcategories sharing subtle differences. Existing approaches tackle this problem by firstly extracting discriminative regions using part localization or object localization or Region Proposal Networks (RPN), then applying Convolutional Neural Network (CNN) or SVM classifier on those regions. In this work, with the purpose of simplifying the above-complicated pipeline while keeping high accuracy, we get inspired by the one-stage object detection model YOLO and design a one-stage end-to-end object detector model for FGVC. Specifically, we apply YOLOv5 as a baseline model and replace its Path Aggregation Network (PANet) structure with Weighted Bidirectional Feature Pyramid Network (BiFPN) structure to efficiently fuse information from different resolutions. We conduct experiments on different classification and localization weight ratios to guide choosing loss weights in different scenarios. We have proved the viability of the one-stage detector model YOLO on FGVC, which has 87.1% top1 accuracy on the FGVC dataset CUB-200-2011. Furthermore, we have designed a more accurate one-stage model, achieving 88.1% accuracy, which is the most accurate method compared to the existing localization state-of-the-art models. Finally, we have shown that the higher the classification loss weight, the faster the convergence speed, while increasing slightly localization loss weight can help achieve a more accurate classification but resulting in slower convergence.

La classificazione visiva a grana fine (FGVC) è un campo in rapida crescita nella classificazione delle immagini. Tuttavia, è un compito impegnativo a causa delle sottocategorie che condividono sottili differenze. Gli approcci esistenti affrontano questo problema estraendo in primo luogo le regioni discriminanti utilizzando la localizzazione parziale o la localizzazione degli oggetti o le reti di proposte regionali (RPN), quindi applicando la rete neurale convoluzionale (CNN) o il classificatore SVM su quelle regioni. In questo lavoro, con lo scopo di semplificare la pipeline sopra complicata mantenendo un'elevata precisione, ci ispiriamo al modello di rilevamento di oggetti a uno stadio YOLO e progettiamo un modello di rilevatore di oggetti end-to-end a uno stadio per FGVC. Nello specifico, applichiamo YOLOv5 come modello di base e sostituiamo la sua struttura Path Aggregation Network (PANet) con la struttura Weighted Bidirezionale Feature Pyramid Network (BiFPN) per fondere in modo efficiente le informazioni provenienti da diverse risoluzioni. Conduciamo esperimenti su diversi rapporti di peso di classificazione e localizzazione per guidare la scelta dei pesi di perdita in diversi scenari. Abbiamo dimostrato la fattibilità del modello di rivelatore a uno stadio YOLO su FGVC, che ha una precisione top1 dell'87,1% sul set di dati FGVC CUB-200-2011. Inoltre, abbiamo progettato un modello a una fase più accurato, ottenendo un'accuratezza dell'88,1%, che è il metodo più accurato rispetto ai modelli all'avanguardia di localizzazione esistenti. Infine, abbiamo dimostrato che maggiore è il peso della perdita di classificazione, maggiore è la velocità di convergenza, mentre aumentare leggermente il peso della perdita di localizzazione può aiutare a ottenere una classificazione più accurata ma con conseguente convergenza più lenta.