Optimization of convolutional neural networks : transfer learning for robustness to image distortion through selective filter-level fine-tuning

Computer vision tasks have recently seen great advancements thanks to the progress and widespread adoption of convolutional neural networks in various fields of application. To achieve such excellent results, these models are trained on very large datasets of pristine and high-quality images, with the training procedure often becoming a long and resource-intensive process. One consequence of this fact is the adoption of pre-trained models by whoever lacks the resources, data or know-how to perform the training of these models. One issue with pre-trained models is that they are usually trained overlooking the fact that distortions like image blur and additive noise commonly occur during image acquisition, and that testing these models on such distortions causes a significant drop in performance. A very well known and commonly adopted solution to this problem is to fine-tune the network with distorted samples, but with larger networks, applying such procedure on all the parameters may become exceedingly costly. In our thesis, we tackle exactly this problem by proposing a more efficient solution that is able to attain state-of-the-art performance at a lower computational cost: We start from the observation that in each layer of a convolutional neural network some filters are more susceptible to image distortion than others. We propose a metric to identify these filters and rank them, for each convolutional layer, based on the impact that such distortion has on them. Finally, we fine-tune only the most affected filters, significantly reducing the number of parameters to retrain. The results of our work clearly demonstrate that the proposed technique recovers most of the lost performance due to input data distortion, making the retrained filters invariant to it, outperforming the usual layer-level fine-tuning of the network, when few noisy labeled samples are available, all at a noticeably lower computational cost.

I processi di visione artificiale hanno di recente fatto grandi passi avanti grazie al progresso e all'adozione diffusa di reti neurali convoluzionali in svariati ambiti applicativi. Per ottenere risultati così eccelsi, questi modelli sono allenati su dataset di grandi dimensioni di immagini incontaminate e di alta qualità, con la procedura di allenamento che spesso diventa un processo lungo ed altamente dispendioso in termini di risorse computazionali. Una conseguenza di questo fatto è l'adozione di modelli pre-allenati da parte di chiunque non disponga di risorse, dati o know-how per eseguire l’allenamento di questi modelli. Un problema con i modelli pre-allenati è che solitamente vengono istruiti con dati che prescindono dal fatto che durante l'acquisizione di immagini si verifichino comunemente distorsioni come sfocatura e rumore additivo, e che testare questi modelli su tali immagini distorte provochi un calo significativo delle prestazioni. Una soluzione molto conosciuta e comunemente adottata per questo tipo di problema è quella di affinare la rete già allenata con campioni distorti. Tuttavia, su reti estremamente grandi, l'applicazione di tale procedura su tutti i parametri della rete può risultare eccessivamente gravoso. Nella nostra tesi affrontiamo esattamente questo problema proponendo una soluzione più efficiente che sia in grado di raggiungere prestazioni pari allo stato dell'arte, ma ad un costo computazionale sensibilmente inferiore: Partiamo dall'osservazione che in ogni livello di una rete neurale convoluzionale alcuni filtri siano più suscettibili alla distorsione delle immagini rispetto ad altri. Proponiamo quindi una metrica per identificare questi filtri e classificarli, per ogni livello convoluzionale, in base all'impatto che tale distorsione ha su di essi. Infine, affiniamo solo i filtri più sensibili al rumore, riducendo in modo significativo il numero di parametri da riallenare. I risultati del nostro lavoro dimostrano chiaramente che la tecnica proposta recupera la maggior parte delle prestazioni perse a causa della distorsione nei dati di input, rendendo i filtri riqualificati insensibili a queste impurità, superando la più comune tecnica di affinamento per livello, quando pochi dati etichettati sono disponibili, il tutto ad un costo computazionale sensibilmente inferiore.