seashell: a resource consumption benchmark for analysis tasks in healthcare data lakes

The massive volume of data generated by individuals, organizations, and devices has made big data an increasingly critical trend in today's world. The healthcare field is no exception, with electronic health records, medical imaging, wearable devices, and genomics among the sources of data being generated. Managing and analyzing this data effectively has become a key competitive advantage for organizations, and the potential for big data to improve patient outcomes, enhance medical research, and reduce healthcare costs is immense. At the same time, managing and analyzing big data is also extremely difficult. To realize the benefits of big data, organizations must prioritize the development of robust big data infrastructure and capabilities. Among big data infrastructures, data lakes have become a valuable solution for storing, processing, and analyzing medical data. However, managing healthcare data lakes is complex due to the vast amount of data involved, the heterogeneity of the data and the compliance with regulatory requirements. Benchmarking healthcare data lakes can optimize resource allocation, capacity planning, improve performance, and assure quality. The aim of this research is to develop a benchmark named SEASHELL to assess the resource consumption of healthcare data lakes and determine the required computational and storage requirements of such systems. Such benchmark analyzes the data lake's performance under different scenarios and workload types through three sets of benchmark tasks. SEASHELL is a flexible benchmark tool designed to assess healthcare data lakes of various sizes and types. For such reason, it will be tested on different cloud-computing and virtualized clusters. The research can help healthcare organizations which use data lakes, as the tool will enable them to measure resource consumption, optimize data lake usage, and ultimately achieve cost-savings, better patient outcomes, and more efficient resource use.

La massiccia quantità di dati generati da individui, organizzazioni e dispositivi ha reso il big data un trend sempre più critico oggigiorno. Anche il campo sanitario non fa eccezione, con i record elettronici della salute, le immagini mediche, i dispositivi indossabili e la genomica tra le varie fonti di dati generati. Gestire ed analizzare efficacemente questi dati è diventato un vantaggio competitivo chiave per le organizzazioni, e il potenziale del big data per migliorare gli esiti dei pazienti, migliorare la ricerca medica e ridurre i costi sanitari è immenso. Tuttavia, la sola quantità di dati generati ha reso difficile la loro gestione e analisi. Per realizzare i benefici del big data, le organizzazioni devono dare la priorità allo sviluppo di infrastrutture e capacità solide di big data. Tra le infrastrutture di big data, i data lake sono diventati nel tempo una soluzione valida per archiviare, elaborare ed analizzare i dati medici. Tuttavia, la gestione dei data lake sanitari è complessa a causa della vasta quantità di dati coinvolti, dell'eterogeneità dei dati e della conformità ai requisiti normativi di privacy. Il benchmarking dei data lake sanitari può ottimizzare l'allocazione delle risorse, la pianificazione della capacità, migliorare le prestazioni e assicurare la qualità. Lo scopo di questa ricerca è quello di sviluppare un benchmark chiamato SEASHELL per valutare il consumo di risorse dei data lake sanitari e determinare i requisiti di elaborazione e archiviazione necessari per tali sistemi. Tale benchmark analizza le prestazioni del data lake in diverse situazioni e tipologie di lavoro. SEASHELL è un benchmark flessibile progettato per valutare data lake sanitari di varie dimensioni e tipi. Per tale ragione, è stato testato su diverse architetture cloud-computing e virtualizzate. Tale ricerca può aiutare le aziende sanitarie che utilizzano data lake, poiché lo strumento consentirà loro di misurare il consumo di risorse, ottimizzare l'uso dei data lake e, infine, ottenere risparmi sui costi, migliori risultati per i pazienti e un uso più efficiente delle risorse.