Buckingham theorem application to machine learning algorithms : methodology and practical examples

The Information Age is characterized by an increasing availability of data. In this context, Machine Learning is a cutting-edge cross-sectoral technology providing the possibility to obtain insights, to recognize patterns and to create predictive models from data. Among the challenges brought by this impressive availability of data, one of the most relevant is dealing with datasets composed of a high number of attributes. In classical engineering, the Buckingham Theorem, based on Dimensional Analysis, is used to reduce the number of variables describing a physical problem. Some authors provided examples of the combined application of Dimensional Analysis and Machine Learning algorithms, pointing out the main benefits achieved. A methodology providing alternative paths for the theorem implementation in Machine Learning field is presented. First, the conditions that a dataset must satisfy to be adequate for the theorem application are described. Secondly, the possible approaches and related techniques for the computation and additional transformation of dimensionless numbers, which are the input for the Machine Learning algorithm, are illustrated. A critical role for the path selection is played by the analyst domain knowledge of the addressed problem. Two practical examples of the methodology implementation for clustering and prediction purposes are presented. The obtained results consisted of: a reduction of the variables needed to describe the problems, an increase in values of performance metrics and simplification of algorithm structure.

L'era dell'informazione è caratterizzata da una crescente disponibilità di dati. In questo contesto, il Machine Learning è una tecnologia all'avanguardia che offre la possibilità di ottenere intuizioni, riconoscere modelli e creare modelli predittivi a partire dai dati. Tra le sfide poste da questa impressionante disponibilità di dati, una delle più rilevanti è quella di avere a che fare con un insieme di dati composto da un elevato numero di attributi. Nell'ingegneria classica, il teorema di Buckingham, basato sull'analisi dimensionale, viene utilizzato per ridurre il numero di variabili che descrivono un problema fisico. Alcuni autori hanno fornito esempi dell'applicazione combinata di algoritmi di Analisi Dimensionale e Machine Learning, evidenziando i principali benefici ottenuti. Viene presentata una metodologia che fornisce percorsi alternativi per l'implementazione del teorema nel campo del Machine Learning. In primo luogo, vengono descritte le condizioni che un dataset deve soddisfare per essere adeguato all'applicazione del teorema. In secondo luogo, vengono illustrati i possibili approcci e le relative tecniche per il calcolo e la trasformazione di numeri adimensionali utilizzati come input per l'algoritmo di Machine Learning. Un ruolo critico per la selezione del percorso è giocato dalla conoscenza del dominio che l'analista ha sul problema affrontato. Vengono presentati due esempi pratici dell'implementazione della metodologia per il clustering e la previsione. I risultati ottenuti sono consistiti in: riduzione delle variabili necessarie per descrivere i problemi, aumento dei valori delle metriche di performance e semplificazione della struttura degli algoritmi