A benchmarking of technologies for the deployment of artificial intelligence models on embedded devices

The vast majority of intelligent services are now delivered via cloud-based technologies. However, the AI research community has recently investigated a new approach that depends on resource-constrained (edge) devices to perform machine intelligence. This novel approach, born in the context of edge intelligence and called TinyML, aims to provide on-device data analytics without relying on centralized data services. Our thesis seeks to establish a benchmark by employing technologies that enable AI models to be deployed on edge devices. The practical implication was to develop and deploy an intelligent application for facial recognition. It had to recognize a face in front of a camera on a resource-constrained device and then wait till the end-user decided between registration and login. The project's ultimate goal was to deploy such an application under TinyML implementation guidelines. We achieved our initial goals of face recognition for login and registration by first examining models to implement a pipeline that passes through three main face recognition stages: detection, representation, and, lastly, classification. We chose the models that generated satisfactory results after doing preliminary tests on an Intel Core i7 device. In this context, we employed TinyML implementations to improve our application pipeline's embedding representation for faster CNN inference. Our experimental results, in deployment, demonstrated that the pipeline configuration operating on Raspberry Pi4 and hosting NCS2, for embedding representation, outperformed the others. In addition, although OpenVINO optimizations on FaceNet performed poorly, we discovered classification accuracy of 94% for the bulk of the evaluated pipelines.

La stragrande maggioranza dei servizi intelligenti viene attualmente rilasciata per mezzo di tecnologie basate su cloud. Tuttavia, la comunità di ricerca AI ha recentemente studiato un nuovo approccio basato su dispositivi con risorse limitate (edge) per eseguire servizi intelligenti. Questo nuovo approccio, nato nel contesto dell'edge intelligence e denominato TinyML, mira a fornire analisi dei dati sui dispositivi senza fare affidamento su servizi di dati centralizzati. La nostra tesi ha stabilito un benchmark sulle tecnologie che permettono ai modelli AI di essere distribuiti sui dispositivi edge. Il risvolto applicativo è stato lo sviluppo e l'implementazione di un'applicazione intelligente per il riconoscimento facciale. Essa doveva riconoscere un volto di fronte a una telecamera su un dispositivo con risorse limitate e poi aspettare che l'utente finale scegliesse tra effettuare una registrazione e un login. L'obiettivo finale del progetto era quello di distribuire tale applicazione secondo le linee guida di implementazione del TinyML. Abbiamo raggiunto i nostri obiettivi iniziali di riconoscimento facciale per il login e la registrazione esaminando dapprima modelli per implementare una pipeline che passa attraverso tre fasi principali di riconoscimento del volto: rilevamento, rappresentazione e, infine, classificazione. Abbiamo scelto modelli che hanno generato risultati soddisfacenti in seguito a test preliminari su un dispositivo Intel Core i7. In questo contesto, abbiamo impiegato implementazioni TinyML per ottimizzare la rappresentazione dell'embedding della pipeline della nostra applicazione per un'inferenza della rete neurale a convoluzione più veloce. I nostri risultati sperimentali, in fase di implementazione, hanno dimostrato che la configurazione della pipeline che ha girato su Raspberry Pi4 e che ha ospitato la Intel Neural Compute Stick 2, per la rappresentazione dell'embedding, ha ottenuto risultati migliori rispetto al resto delle implementazioni. Inoltre, anche se le ottimizzazioni di OpenVINO su FaceNet hanno ottenuto scarsi risultati, abbiamo riscontrato una precisione in classificazione del 94% per la maggior parte delle pipeline esaminate.