Resource estimation for encrypted function invocations in FaaS using machine learning techniques

This thesis addresses the challenges associated with resource estimation in Function-as-a-Service (FaaS) environments, with a specific focus on middleboxes that perform encrypted packet inspection to ensure secure communication. Middleboxes are vital components in network security, designed to detect potential threats within encrypted traffic, such as unauthorized function invocations. However, their resource consumption is highly variable and depends on several factors, including the specific approach for packet inspection employed and the characteristics of incoming requests. The thesis explores two middlebox methodologies, Zero-Knowledge (ZK) and Delegated Credentials (DC), both of which enforce security policies over encrypted traffic under different contexts given that for DC the middlebox is trusted and for ZK it is not. To tackle the task of predicting resource consumption in these middleboxes, this work applies advanced Machine Learning (ML) techniques. Specifically, it leverages the Auto Machine Learning (AutoML) library, aMLLibrary, to estimate the resource consumption of middleboxes based on characteristics of the request. Two ML models, LRRidge and XGBoost, are applied to predict the execution time and RAM memory usage. These models provide accurate predictions of resource requirements, possibly enabling efficient dynamic allocation of resources. By doing so, they help prevent both overprovisioning and underprovisioning. The results of this thesis indicate that the ML models, particularly XGBoost, excel in predicting non-linear relationships, such as the RAM usage in the circuit generation phase of the ZK process, while LRRidge proves more effective for problems with linear but also super-linear patterns, such as in the Libsnark phases. These predictions create opportunities to optimize middlebox performance for real-time traffic inspection, and to enhance scalability and efficiency in serverless computing environments. Future research could extend this work by exploring alternative middlebox methodologies and incorporating more diverse datasets to further refine the accuracy and robustness of resource prediction models.

Questa tesi affronta le sfide legate alla stima delle risorse nei contesti di Function-as-a-Service (FaaS), con un'attenzione specifica ai middlebox che eseguono l'ispezione dei pacchetti per garantire comunicazioni sicure. I middlebox sono componenti fondamentali nella sicurezza delle reti, progettati per rilevare potenziali minacce nel traffico criptato, come invocazioni non autorizzate di funzioni. Tuttavia, il loro consumo di risorse è altamente variabile e dipende da diversi fattori, inclusa la tecnica di ispezione dei pacchetti impiegata e le caratteristiche delle richieste in arrivo. La tesi esplora due metodologie per middlebox: Zero-Knowledge (ZK) e Delegated Credentials (DC), entrambe utilizzate per applicare politiche di sicurezza sul traffico criptato in contesti differenti, in quanto per DC il middlebox è considerato affidabile, mentre per ZK non lo è. Per affrontare il compito di prevedere l'uso delle risorse in questi middlebox, questo lavoro utilizza tecniche avanzate di Machine Learning (ML). Nello specifico, sfrutta la libreria Auto Machine Learning (AutoML), aMLLibrary, per stimare il consumo di risorse dei middlebox basandosi sulle caratteristiche delle richieste. Due modelli di ML, LRRidge e XGBoost, vengono applicati per prevedere il tempo di esecuzione e il massimo utilizzo della memoria RAM. Questi modelli forniscono previsioni accurate dei requisiti di risorse, consentendo una possibile allocazione dinamica ed efficiente delle risorse stesse. In questo modo, si evita sia il sovradimensionamento, che porta a sprechi di risorse, sia il sottodimensionamento, che può causare inefficienze operative. I risultati di questa tesi mostrano che i modelli di ML, in particolare XGBoost, eccellono nella previsione di relazioni non lineari, come l'uso massimo della RAM nella fase di generazione del circuito nel processo ZK, mentre LRRidge si dimostra più efficace per problemi con pattern lineari o addirittura super-lineari, come nelle fasi di Libsnark. Queste previsioni offrono l'opportunità di ottimizzare le prestazioni dei middlebox nell'ispezione del traffico in tempo reale, migliorando così la scalabilità e l'efficienza negli ambienti di calcolo serverless. Le ricerche future potrebbero ampliare questo lavoro esplorando metodologie alternative per middlebox e incorporando dataset più diversificati per affinare ulteriormente l'accuratezza e la robustezza dei modelli di previsione delle risorse.