Bayesian optimization of expensive black-box functions in big data analytics via feature selection

The amount of data we produce every day is growing faster than ever before, doubling every two years. Recent studies estimate that more than 150 zettabytes (i.e., 150 trillion gigabytes of data) will be analysed by 2025. Big data processing requires new types of infrastructures, and virtual machines (VM) clusters are nowadays the most suitable execution environment. At the application layer, Apache Spark is one of the most widely used environments to perform various big data analyses. Today, big data analytics running on clouds have become critical for almost every industry and choosing the right cloud configuration is essential to service quality and business competitiveness. The goal of the thesis is to indentify the best cloud configuration in order to minimize execution times and costs of analytic jobs. Due to the latter being black-box functions, we use a Bayesian approach to global optimization. Specifically, we assume that the application execution cost is a random function sampled from a proper distribution and we perform constrained optimization to find the optimal cloud configuration. Furthermore, we combine Bayesian optimization with feature selection techniques to avert problems associated with the high-dimensionality of the data. To that end, we develop BOSS-V, an algorithm that integrates both techniques, and indentifies the best cloud configuration effectively.

La quantità di dati generati attualmente raddoppia ogni due anni. Studi recenti stimano che più di 150 zettabyte di dati, ovvero 150 trilioni di gigabyte di dati, saranno analizzati entro il 2025. Questa grande quantità di dati, big data, richiede nuove infrastrutture per la loro analisi a causa dell'inadeguatezza di quelle attualmente disponibili. Al giorno d'oggi, le analisi dei big data, big data analytics, vengono eseguite in cluster di macchine virtuali (VM), e Apache Spark è diventata una delle piattaforme più usate per la loro esecuzione. Big data analytics ricoprono un ruolo di primaria importanza per quasi tutte le industrie. Per ottenere servizi di qualità e competitività commerciale è importante scegliere la migliore configurazione del cloud, minimizzando i tempi di esecuzione delle applicazioni eseguite sulle VM e riducendo i loro costi. In particolare, per identificare la configurazione ottimale del cloud, noi adottiamo un approccio bayesiano all'ottimizzazione. Ovvero, assumiamo che il tempo di esecuzione, che è una funzione della configurazione di tipo black-box, sia una funzione aleatoria e abbia una sua distribuzione. Inoltre, combiniamo l'approccio di ottimizzazione bayesiana con tecniche di selezione delle variabili per far fronte alle difficoltà che essa presenta in problemi ad alta dimensionalità, come lo sono i big data, e proponiamo un algoritmo di ottimizzazione vincolata che calcoli l'ottimo sopra descritto. Inoltre, esploreremo la possibilità di integrare informazione riguardante l'ottimo, ottenuta in modo indipendente dall'ottimizzazione bayesiana, nella procedura di ottimizzazione.