Context switch in hardware accelerator

The exponential growth in the availability of data in many areas, such as fi- nance, commerce, government, health-care, cybersecurity, communication net- works, transportation networks, social networks, and the Web, is driving the needs for effective methods to extract value from the data itself. Some of the challenges are the unprecedented size of the data to process, and the require- ment to process them as quickly as possible to provide actionable answers to queries. A Graph Database that contains the data is a huge structure that can be divided into different physical support. The graph structure is used also to describe a knowledge graph as Google. General Purpose Processors also used on High-Performance Computing use huge Random Access Memory (RAM). However, they heavily rely on high predictable memory access, prefetching and limited spatial locality of data, well exploited by caches structures. More- over, even if the queries on Databases allows a high degree of parallelism they are greatly unbalanced for their intrinsic nature. Hardware accelerator imple- mented on FPGA are much more efficient since don’t rely on predictable mem- ory access and can be created to well suit these kind of applications, however even if they can achieve a high degree of parallelism and a balance on it, they spend most of their time waiting for the memory to respond. Implementing a context switching procedure that performs a memory request then switch to a ready task or to a new task could improve greatly the overall performance by masking the memory latency and reduce the area usage of the overall architec- ture. The design of a template-architecture of irregular workload on a high-level synthesis tool is the focus of this thesis.

La crescita esponenziale della disponibilità di dati in molti settori, come la fi- nanza, il commercio, il governo, l’assistenza sanitaria, la sicurezza in rete, le reti di comunicazione, le reti di trasporto, le reti sociali e il web, sta guidando le ne- cessità di metodi efficaci per estrarre valore i dati stessi. Alcune delle sfide sono la dimensione senza precedenti dei dati da elaborare e l’esigenza di elaborarli il più velocemente possibile per fornire risposte utili alle domande. Un database grafico che contiene i dati è una struttura enorme che può essere suddivisa in diversi supporti fisici. La struttura del grafico viene utilizzata anche per descri- vere un grafico di conoscenza come Google. I processori di uso generale utiliz- zati anche su Computing ad alte prestazioni utilizzano una grande memoria di accesso casuale (RAM). Tuttavia, si affidano fortemente ad un elevato accesso di memoria predittivo, prefetching e localizzazione spaziale limitata dei dati, ben sfruttata dalle strutture di cache. Inoltre, anche se le query sulle banche dati consentono un elevato grado di parallelismo, essi sono notevolmente sbilanciati per la loro natura intrinseca. L’acceleratore hardware implementato su FPGA è molto più efficiente in quanto non si basa sull’accesso di memoria prevedibile e può essere creato per adattarsi perfettamente a queste applicazioni, ma anche se possono ottenere un elevato grado di parallelismo e un equilibrio su di esso, spendono la maggior parte del loro tempo aspettando che la memoria risponda. Attuare una procedura di commutazione di contesto che esegue una richiesta di memoria, quindi passare a un’attività pronta oa una nuova attività potrebbe migliorare notevolmente le prestazioni complessive mascherando la latenza di memoria e ridurre l’utilizzo della superficie dell’architettura complessiva. Il progetto di un’architettura template che riguardi un carico di lavoro irregolare su un tool di sintesi ad alto livello è al centro di questa tesi.