PAK-MAN: optimal cloud and HPC system parallel optimization via Bayesian optimization and machine learning

The complexity of contemporary computational tasks necessitates the development of advanced optimization techniques to ensure optimal performance and resource utilization. This thesis addresses the challenges of tackling high-dimensional, computationally expensive, and constrained optimization problems within cloud computing, high-performance computing, and machine learning (ML). The primary contribution of this work is developing and evaluating a novel algorithm that integrates parallel Bayesian Optimization with ML models to handle these optimization challenges efficiently. The algorithm leverages the Parallel Knowledge Gradient, enhancing it with predictive ML models to incorporate constraint information dynamically. This integration manages exploration-exploitation trade-offs effectively, reducing the search space of unfeasible configurations. The algorithm is implemented in both synchronous and asynchronous versions, with a hybrid timeout-asynchronous approach introduced to further optimize resource utilization. This work evaluates the algorithm across various applications, including cloud resource management, edge computing, molecular docking, and hyperparameter tuning for ML models. Comparative analysis with established methods demonstrates superior speed and solution quality performance, improving results by 10-30% and often achieving faster convergence. The results highlight the robustness of the synchronous implementation against prediction errors and the efficiency of the asynchronous version in reducing computational time.

La complessità di calcolo dei programmi e computer moderni richiede lo sviluppo di tecniche di ottimizzazione avanzate per garantire prestazioni e utilizzo delle risorse ottimali. In questa tesi affrontiamo problemi di ottimizzazione black-box vincolati ad alta dimensionalità con applicazioni computazionalmente costose negli ambiti del cloud computing, high-performance computing (HPC) e del machine learning (ML). Il contributo principale di questo lavoro è lo sviluppo di PAK-MAN (PArallel Knowledge with MAchiNe learning), un algoritmo che integra l'ottimizzazione bayesiana parallela con modelli di ML per gestire efficacemente questi problemi di ottimizzazione. L'algoritmo sfrutta la tecnica del Parallel Knowledge Gradient, potenziandola con modelli ML predittivi per incorporare dinamicamente informazioni sui vincoli. Questa integrazione bilancia efficacemente esplorazione e ottimizzazione e concentra l'algoritmo su configurazioni che rispettano i vincoli. L'algoritmo è implementato sia in versione sincrona che asincrona, con un approccio ibrido asincrono basato su un meccanismo di timeout per ottimizzare ulteriormente l'utilizzo delle risorse di calcolo parallele disponibili. Sono stati eseguiti esperimenti per valutare l'algoritmo con diverse applicazioni, tra cui la gestione delle risorse del cloud, l'edge computing, il docking molecolare e il tuning degli iperparametri per modelli ML. L'analisi comparativa con metodi dalla letteratura dimostra prestazioni superiori in termini di velocità e qualità delle soluzioni, migliorando i risultati in termini di regret del 10-30% e raggiungendo spesso una convergenza più rapida dei concorrenti. I nostri risultati evidenziano la robustezza dell'algoritmo sincrono in caso di errori predizione notevoli e l'efficienza della versione asincrona nel ridurre i tempi di ottimizzazione.