Parallelized convolutions for embedded ultra low-power deep learning architectures

Deep Convolutional Neural Networks (DCNNs) achieve state of the art results in many applications involving recognition, identification and classification tasks com- pared to previous methods. An ever-increasing deployment of DCNNs based infer- ence engines in embedded devices supporting the edge-computing paradigm has been observed, overcoming limitations of cloud-based computing as bandwidth require- ments, security, privacy, scalability, and latency. However, increasing the robustness and accuracy of DCNNs comes at the price of an increased computational cost. As a result, implementing CNNs on embedded devices with real-time constraints is a challenge if the lowest power consumption shall be achieved. A solution to this chal- lenge is to take advantage of the intra-device massive fine grain parallelism offered by these systems and benefit from the extensive concurrency exhibited by DCNN- based algorithms. The trick is to split intensive tasks into smaller, weakly interact- ing batches subject to parallel processing. In this scenario, the thesis has mainly three goals: 1) describe a state-of-art technique to map DCNN most intensive tasks (multiply-accumulate) onto multi-core embedded systems; 2) implement the tech- nique on Orlando SoC, a multi-core heterogeneous ultra-low power SoC developed by STMicroelectronics; 3) integrate the proposed implementation on a toolchain that allows deep learning developers to deploy DCNNs on low-power devices.

Le Deep Convolutional Neural Network (DCNN), rispetto ai metodi precedenti, rappresentano lo stato dell’arte in molte applicazioni di riconoscimento, identifi- cazione e classificazione. È stata osservata una diffusione sempre più crescente di motori inferenziali basati sulle DCNN nei dispositivi embedded che supportano il paradigma dell’ edge-computing. Tale paradigma supera i limiti del cloud-computing in termini di larghezza di banda, sicurezza, privacy, scalabilità e latenza. Tuttavia, l’aumento della robustezza e dell’accuratezza delle DCNN richiede un aumento del costo computazionale. Dunque, implementare le DCNN su dispositivi embedded real- time risulta essere una sfida se si desidera ottenere un basso consumo energetico. Una soluzione a questa sfida è quella di sfruttare il parallelismo intra-dispositivo offerto da questi sistemi e di beneficiare della vasta concorrenza esibita dagli algoritmi basati sulle DCNN. Il trucco sta nel dividere le computazioni più intensive in piccoli lotti di lavoro. In questo scenario, la tesi ha principalmente tre obiettivi: 1) descrivere una tecnica allo stato dell’arte per mappare le computazioni più intensive delle DCNN su dispositivi embedded multiprocessore; 2) implementare la tecnica proposta sul SoC Orlando, un sistema multiprocessore su circuito integrato a bassissima potenza sviluppato da STMicroelectronics; 3) integrare l’implementazione proposta su una toolchain che consente agli sviluppatori di implementare le DCNN su dispositivi a bassa potenza.