TActiLE: active stream learning for tiny devices

TinyML is a fast-growing field related to artificial intelligence (AI), focusing on applications and technologies for extremely low-profile devices. It allows to push intelligence to the edge reducing latency, power consumption and bandwidth usage. TinyML enables efficient inference on low-power devices, but its capabilities can be further enhanced through On-Device Learning. In a tinyML context, there is the possibility of acquiring a lot of incoming data from the on-device sensor, however, the limited memory resources do not allow for storing them in a large amount. Having high-quality annotated data is costly, especially in TinyML environment where the absence of human-machine interfaces adds further complexity to the procedure. As a result of the aforementioned problems, there is a great interest in applying on-device active learning procedures. In active learning, techniques accurately choose from an unlabeled set a subset of the data to label and train the machine learning algorithm on which are developed. The main active learning approach suited for this scenario is streaming-based sampling in which the data is scanned sequentially and the decision of taking the sample or discarding is made individually in an online manner, without the possibility of seeing again samples already discarded. In light of this, we propose TActiLE, a lightweight stream deep active learning procedure which uses a simple heuristic in conjunction with two new sample handling strategies. The lighter strategy exploits an uncertainty-based metric the second one instead exploits a hybrid query strategy combining uncertainty-based and diversity-based metrics. Models trained with a set of samples selected using TActiLE have better performances than those trained with a set of samples chosen based on the considered comparisons. Moreover TActiLE selects the to-be-labeled set of samples faster than the other compared solutions and in its lighter version TActiLE is less memory-demanding.

Il TinyML è un campo in rapida evoluzione relativo all’intelligenza artificial (IA), che si focalizza in applicazioni e tecnologie per dispositivi estremamente di basso profilo. Permette l’utilizzo dell’intelligenza artificiale ai confini, riducendo latenza, consumo di energia e larghezza di banda. Il TinyML permette l’inferenza efficiente su dispositivi a basso consumo e le sue capacità possono essere migliorate ulteriormente attraverso l’apprendimento On-device. In un contesto TinyML, c’è la possibilità di acquisire una grande quantità di dati derivanti dai sensori presenti sul dispositivo, ma la le risorse di memoria limitate non permettono il salvataggio di questa grossa mole di dati. Nel contempo avere una grande quantità di dati annotati è un processo costoso, specialmente in un contesto TinyML dove l’assenza di un’interfaccia uomo-macchina aggiunge ulteriore complessità alla procedura. Come risultato dei sopracitati problemi, è scaturito un grande interesse nell’applicare procedure di active learning direttamente sul dispositivo. Nell’active learning, le tecniche impiegate scelogono accuratamente da un set di dati non etichettato un sottoinsieme per l’etichettatura e per il successivo addestramento del modello di machine learning sul quale si basano. Lo scenario di active-learning più indicato per questo contesto è quello in stream, in cui i dati sono scansionati sequenzialmente e la decisione di tenere un campione o di scartarlo è presa individualmente in maniera online, senza la possibilità di valutare nuovamente campioni già scartati. In questa ricerca, proponiamo TActilE, una procedura leggera di active learning in stream, che usa una semplice euristica combinata con una di due nuove strategie di gestione dei set da etichettare. La strategia più leggera utilizza una metrica di incertezza del modello sul campione, mentre la seconda utilizza una strategia ibrida in cui vengono combinate incertezza del modello sul campione e diversità del campione rispetto agli altri campioni da etichettare. I modelli addestrati con un set di campioni selezionati da TActiLE risultano avere performance migliori rispetto ai modelli addestrati con un set di campioni selezionati dalle startegie analizzate a comparazione. Oltretutto TActiLE seleziona i campioni da etichettare più velocemente e nella sua versione più leggera richiede un utilizzo di memoria inferiore.