MSFAT: a novel DL methodology for Hardening Convolutional Neural Networks with negligible overhead

The contemporary surge in employing deep learning, particularly Convolutional Neural Networks (CNNs), within safety-critical contexts like Autonomous Driver Systems (ADS), prompts an exploration into their reliability. Hardware faults, such as transient bit-flips induced by radiation, can disrupt these systems and cause damage within the environment where they are deployed. Nowadays, CNNs are mainly executed on Graphical Processing Units (GPUs) which are vulnerable to faults due to their structure. In this context, our work aims at evaluating and improving reliability techniques for CNNs executed on GPUs by leveraging and proposing software-level mechanisms, based on Deep Learning methods, that can be directly plugged into the algorithms. Among these, clipping methodologies, that suppress high-magnitude values flowing through the model, seem to yield good performance at masking faults introducing little overhead at the computational load. Another technique aims at hardening predictive models by exposing them to faulty behavior during the training phase. This goes under the name of Fault Aware Training (FAT) and has the peculiarity of introducing zero overhead onto the inference phase of the predictive model. The first contribution of this work consists of the validation of clipping methodologies on a range of computer vision tasks such as classification, regression, object detection, and semantic segmentation. The results of this part show that the methodology has some limitations in object detection tasks, while behaving well on the others. The second contribution is represented by the development of a novel FAT methodology targeting floating point models and inheriting clipping methodology properties. On top of this, a novel systematic procedure for hardening any kind of CNN against transient faults leveraging the just mentioned FAT methodology is proposed under the name of Multi-Step FAT. Finally, validation for both FAT and multi-step FAT is performed on object detection tasks, resulting in further improvements of resilience values w.r.t. the lone application of clipping methodologies.

L'utilizzo sempre più frequente dei metodi di apprendimento profondo, in particolare delle reti neurali convoluzionali (RNC), in contesti critici per la sicurezza come i Sistemi di Guida Autonoma (SGA), richiede un'approfondita analisi della loro affidabilità. Guasti hardware, come inversioni transitorie di bit causate da radiazioni, possono compromettere tali sistemi e provocare danni nell'ambiente in cui sono impiegati. Attualmente, le RNC sono prevalentemente eseguite su Unità di Elaborazione Grafica (UEG) le quali risultano vulnerabili ai guasti menzionati. In questo contesto, il nostro lavoro mira a valutare e migliorare le tecniche di affidabilità per le RNC eseguite su UEG, sfruttando e proponendo meccanismi a livello software basati su metodi di Apprendimento Profondo. Tra questi, le metodologie di clipping, che sopprimono i valori fuori dominio che attraversano il modello, sembrano offrire buone prestazioni nel mascherare i guasti impattando leggermente il carico computazionale. Un'altra tecnica mira a rendere più robusti i modelli predittivi esponendoli a comportamenti difettosi durante la fase di addestramento. Questo approccio è noto con il nome di Fault Aware Training (FAT) e presenta la particolarità di non introdurre alcun sovraccarico nella fase di inferenza. Il primo contributo di questo lavoro consiste nella validazione delle metodologie di clipping su una serie di applicazioni di computer vision, come classificazione, regressione, rilevamento oggetti e segmentazione semantica. I risultati di questa parte evidenziano limitazioni su alcune applicazioni di rilevamento oggetti. Il secondo contributo è rappresentato dallo sviluppo di una nuova metodologia FAT applicabile ai modelli in virgola mobile. In aggiunta a ciò, viene proposta una nuova procedura sistematica per rendere le RNC più robuste contro i guasti transitori, sfruttando la suddetta metodologia FAT. Abbiamo nominato la tecnica Multi-Step FAT. Infine, abbiamo validato sia FAT che Multi-Step FAT su alcune applicazioni di rilevamento oggetti, portando a ulteriori miglioramenti dei valori di resilienza rispetto all'applicazione delle sole metodologie di clipping.