Nowadays, heterogeneous systems have become predominant for edge computing, integrating various processing units such as CPUs, GPUs, and, more recently, Deep Learning Accelerators (DLAs). Deep Learning (DL) has seen growing adoption in edge computing for a range of industrial applications, including computer vision and autonomous driving. Deploying multi-programmed compute-intensive DL workloads on power-constrained edge devices requires an efficient utilization of the available resources to minimize power consumption and meet performance goals. However, resource allocation becomes challenging due to the differing hardware affinities of DL model architectures—ranging from Deep Neural Networks to Transformers—as well as the runtime variability of system state, workload composition, and application requirements. Runtime Resource Management (RTRM) solutions are able to address these challenges by continuously monitoring the system and application status to adapt resource allocation in real time, ensuring performance/power requirements. This work presents a RTRM policy for the execution of a dynamically varying workload of DL applications, each targeting a specific throughput requirement, while minimizing overall power consumption. The policy is designed for architectures including GPU and DLA. The policy acts on application-to-device mapping and frequency scaling to meet the requirements possibly varying on time, and decides through a heuristic strategy informed by design-time application benchmarking. We perform the experimental evaluation of our approach on the NVIDIA Jetson Orin NX device. We compare our approach against other baseline strategies for scheduling and resource balancing of DL applications. Our runtime policy is able to deliver the expected application throughput requirements while reducing power consumption by an average of 10% and up to 40% against other baselines.

Attualmente, i sistemi eterogenei predominano nell'edge computing, data l’integrazione di diverse unità di calcolo, come CPU, GPU e, recentemente, i Deep Learning Accelerator (DLA). Il Deep Learning (DL) ha trovato adozione in scenari edge, ad esempio per computer vision e guida autonoma. L’esecuzione di carichi DL multiprogrammati su dispositivi edge con vincoli di potenza richiede un utilizzo efficiente delle risorse per minimizzare il consumo di potenza e soddisfare i requisiti prestazionali. Tuttavia, l’allocazione ottimale delle risorse risulta complessa date le differenti affinità hardware delle varie architetture dei modelli DL -- dalle Deep Neural Network (DNN) ai modelli Transformer -- e della variabilità dinamica dello stato del sistema, della composizione del carico e delle esigenze applicative. Le soluzioni di Runtime Resource Management (RTRM) gestiscono l’allocazione delle risorse in tempo reale monitorando lo stato del sistema e delle applicazioni per garantire il rispetto dei vincoli di prestazioni e di potenza. Presentiamo una politica di RTRM per l’esecuzione di un carico di lavoro variabile di applicazioni DL che necessitano di soddisfare dei requisiti di throughput, minimizzando il consumo di potenza. La politica è progettata per architetture con GPU e DLA, e agisce sia sull'associazione applicazione-dispositivo sia sul ridimensionamento dinamico della frequenza di clock per soddisfare i requisiti variabili nel tempo. Le decisioni vengono prese tramite un'euristica, guidata da un'analisi di benchmarking effettuata in fase di progettazione. La valutazione sperimentale viene condotta sul dispositivo NVIDIA Jetson Orin NX, confrontando il nostro approccio con strategie comunemente adottate per carichi di DL. I risultati dimostrano che la nostra politica è in grado di soddisfare i requisiti di throughput, riducendo il consumo di potenza in media del 10% e fino al 40% rispetto a strategie comuni.

A runtime policy for the efficient execution of deep-learning workloads on heterogeneous edge platforms

PALMIOTTI, DAVIDE
2024/2025

Abstract

Nowadays, heterogeneous systems have become predominant for edge computing, integrating various processing units such as CPUs, GPUs, and, more recently, Deep Learning Accelerators (DLAs). Deep Learning (DL) has seen growing adoption in edge computing for a range of industrial applications, including computer vision and autonomous driving. Deploying multi-programmed compute-intensive DL workloads on power-constrained edge devices requires an efficient utilization of the available resources to minimize power consumption and meet performance goals. However, resource allocation becomes challenging due to the differing hardware affinities of DL model architectures—ranging from Deep Neural Networks to Transformers—as well as the runtime variability of system state, workload composition, and application requirements. Runtime Resource Management (RTRM) solutions are able to address these challenges by continuously monitoring the system and application status to adapt resource allocation in real time, ensuring performance/power requirements. This work presents a RTRM policy for the execution of a dynamically varying workload of DL applications, each targeting a specific throughput requirement, while minimizing overall power consumption. The policy is designed for architectures including GPU and DLA. The policy acts on application-to-device mapping and frequency scaling to meet the requirements possibly varying on time, and decides through a heuristic strategy informed by design-time application benchmarking. We perform the experimental evaluation of our approach on the NVIDIA Jetson Orin NX device. We compare our approach against other baseline strategies for scheduling and resource balancing of DL applications. Our runtime policy is able to deliver the expected application throughput requirements while reducing power consumption by an average of 10% and up to 40% against other baselines.
KANDURI, ANIL
ING - Scuola di Ingegneria Industriale e dell'Informazione
22-lug-2025
2024/2025
Attualmente, i sistemi eterogenei predominano nell'edge computing, data l’integrazione di diverse unità di calcolo, come CPU, GPU e, recentemente, i Deep Learning Accelerator (DLA). Il Deep Learning (DL) ha trovato adozione in scenari edge, ad esempio per computer vision e guida autonoma. L’esecuzione di carichi DL multiprogrammati su dispositivi edge con vincoli di potenza richiede un utilizzo efficiente delle risorse per minimizzare il consumo di potenza e soddisfare i requisiti prestazionali. Tuttavia, l’allocazione ottimale delle risorse risulta complessa date le differenti affinità hardware delle varie architetture dei modelli DL -- dalle Deep Neural Network (DNN) ai modelli Transformer -- e della variabilità dinamica dello stato del sistema, della composizione del carico e delle esigenze applicative. Le soluzioni di Runtime Resource Management (RTRM) gestiscono l’allocazione delle risorse in tempo reale monitorando lo stato del sistema e delle applicazioni per garantire il rispetto dei vincoli di prestazioni e di potenza. Presentiamo una politica di RTRM per l’esecuzione di un carico di lavoro variabile di applicazioni DL che necessitano di soddisfare dei requisiti di throughput, minimizzando il consumo di potenza. La politica è progettata per architetture con GPU e DLA, e agisce sia sull'associazione applicazione-dispositivo sia sul ridimensionamento dinamico della frequenza di clock per soddisfare i requisiti variabili nel tempo. Le decisioni vengono prese tramite un'euristica, guidata da un'analisi di benchmarking effettuata in fase di progettazione. La valutazione sperimentale viene condotta sul dispositivo NVIDIA Jetson Orin NX, confrontando il nostro approccio con strategie comunemente adottate per carichi di DL. I risultati dimostrano che la nostra politica è in grado di soddisfare i requisiti di throughput, riducendo il consumo di potenza in media del 10% e fino al 40% rispetto a strategie comuni.
File allegati
File Dimensione Formato  
2025_07_Palmiotti_Tesi.pdf

accessibile in internet per tutti

Descrizione: Tesi
Dimensione 3.12 MB
Formato Adobe PDF
3.12 MB Adobe PDF Visualizza/Apri
2025_07_Palmiotti_Executive_Summary.pdf

accessibile in internet per tutti

Descrizione: Executive Summary
Dimensione 874.35 kB
Formato Adobe PDF
874.35 kB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/240190