This work presents an assessment and specific improvements to an algorithm designed to iteratively build the training dataset to generate a surrogate Machine Learning model of first-principles microkinetic schemes, with special attention to Kinetic Monte Carlo (kMC) simulations. The surrogate models allow for including this kinetic description into detailed macroscale reactor modelling via Computational Fluid Dynamics simulations, overcoming the current limitation in geometry and flow conditions dictated by the intrinsically high computational burden of kMC simulations. The surrogate models are trained with pre-computed reaction rates generated from kMC simulations and, after training, the models can predict the chemical source terms in the governing equations without the need for heavy computations of a chemical step. The accuracy of the Machine Learning models is bonded to the quality of the training dataset that has to be able to properly provide to the algorithm the capability of learning the complex relations between the variables. In this view, a random generation of the dataset could result in the necessity of computing a huge number of training points, thus kMC simulations with a very high computational effort. To overcome this, a procedure to design the dataset has been proposed in previous works aiming at providing a highly representative dataset with a reduced number of datapoints. It by employs strategic sampling in the hyperspace defined by the independent variables of a kMC simulation, such as molar fractions and temperature. The starts with a small dataset and iteratively add additional training points in the region of the compositional space where the function shows the most complex behavior. This is achieved by working on two levels. First, the most relevant variables for the prediction of the target value are selected by using the variable importance feature of Machine Learning models aiming at the selection only the important direction for the training set refinement. Then, the position of the new point is chosen by considering the first and second derivatives of the target function to choose the intervals with steepest changes in the function to be improved with point addition. This assures the model learns the most important patterns of the function and thus increasing its accuracy while also requiring less training points than an evenly distributed sampling would, which implies in computational savings. The application of this method to kMC simulation requires specific modifications and improvement to the existing method. Hence, in this work, a methodology to control and post-process the kMC simulations is developed to automatically detect if a kMC simulation has reached its steady state and to extract the Turnover Frequency and Coverage Levels. Then, definition of the position of the new training points via the calculation of the first and second derivatives has been modified, by moving from a direction-wise analysis of the variable to a global method leading to a reduction of the number of points required by the model to reach the final accuracy. A new feature selection strategy, i.e., Boruta, is considered. Its main strength is the automatic definition of the important and unimportant variables avoiding the definition of a user-defined threshold parameter that generally requires tuning. This approach led to the reduction of the training dataset size from 2016 to 300 for a WGS kMC model without any relevant penalty in the prediction accuracy. A new performance measure, the Curve Matching Indexes, are also proposed to improve the current procedure termination criteria. The strength of these indexes is that they quantify the accuracy of the predictions not only by an error measurement, but also consider if the shape and trend of the predicted function are similar to the real function, which can provide relevant insights into the overall performance of the model. First, the method has been adapted an extended to deal with multidimensional systems and then tested in the kMC simulations modeling. Finally, the modified version of the design procedure has been employed to build surrogate models of a 4-variable input Water Gas Shift Reaction and 2-variable input CO oxidation kMC models. To exemplify the potential of the approach, the so-derived machine learning models have been included into a CFD numerical solver for heterogenous rection flows, i.e. catalyticFOAM, showing the application to a simple case study. The coupling was successful and a simulation of a WGS reaction in a washcoated tubular reactor with kMC generated reaction rates was performed.

Questo lavoro di tesi riguarda la convalida e il miglioramento di un algoritmo precedentemente sviluppato per la generazione di input dataset necessari per allenare modelli surrogati di schemi cinetici ai principi primi, con particolare attenzione ai modelli di cinetica Monte Carlo (kMC), utilizzando tecniche di Intelligenza Artificiale. Tali modelli surrogati permettono di facilitare l’inclusione di cinetiche dettagliate all’interno della modellazione mediante Fluidodinamica Computazionale (CFD) di reattori catalitici eterogenei, superando le attuali limitazioni alle geometrie e condizioni operative imposte dall’elevato costo computazionale richiesto dalle simulazioni kMC. I modelli surrogati sono allenati con dati ottenuti pre-calcolando le velocità nette di produzione delle specie ottenute direttamene dalle simulazioni kMC. Dopo l’allenamento, questi modelli possono essere utilizzati per valutare i termini sorgente relativi alla chimica eterogenea nelle equazioni di trasporto senza il bisogno di risolvere le dispendiose simulazioni kMC. L’accuratezza dei modelli di Machine Learning è strettamente legata alla qualità del dataset di allenamento che deve permettere all’algoritmo di imparare tutte le relazioni, anche le più complesse, tra le variabili del modello. Una generazione casuale dei dati di input può determinare la necessità di utilizzare un gran numero di dati per ottenere un dataset rappresentativo, richiedendo, nel caso di simulazioni kMC, un enorme sforzo computazionale. Per superare tale limite, una procedura per la costruzione iterativa del dataset di allenamento è stata proposta in precedenza al fine di produrre un set di dati altamente rappresentativi minimizzando il numero di punti necessari a tal fine. La procedura utilizza un metodo di costruzione del dataset dove una raffinazione iterativa del dataset viene ottenuta andando a selezionare come regioni dove è necessario aggiungere punti solo quelle dove la funzione mostra il comportamento più complesso. Questo è ottenuto lavorando su due livelli. Le sole variabili indipendenti più importanti, ovvero quelle con il maggiore effetto sul risultato, vengono considerate durante la procedura di raffinamento del dataset. Questo è ottenuto utilizzando la capacità intrinseca dei modelli di machine learning di identificare l’importanza delle variabili. Dopodiché, la posizioni dei nuovi punti, lungo le direzioni importanti, è definita andando ad utilizzare la derivata prima e seconda per capire le regioni dove le variazioni della funzione sono più difficili da descrivere. Tale approccio genera un dataset che permette all’algoritmo di intelligenza artificiale di imparare le relazioni, anche complesse, tra le variabili riducendo il numero di dati di allenamento necessari. L’applicazione di questa metodologia alle simulazioni kMC richiede di fare specifiche modifiche e introdurre miglioramenti alla procedura esistente. Prima di tutto, è stato necessario sviluppare un metodo automatiche che identificasse che le simulazioni kMC avessero raggiunto uno stato pseudo stazionario e che procedesse al post-processamento al fine di estrarre le Turnover Frequencies e i coverage delle specie adsorbite. Dopodiché, la scelta della posizione dei nuovi punti da aggiungere mediante le derivate prime e seconde è stata migliorata andando a considerare un criterio di scelta che considerasse la funzione da un punto di vista globale evitando l’attuale segregazione variabile per variabile, ottenendo una riduzione del numero di training data. E’ stata, anche implementata, una nuova metodologia per la scelta delle variabili importanti, chiamata Boruta, che permette la scelta delle direzioni importanti senza richiedere la definizione di un valore di soglia da parte dell’utente, che ha se sempre richiesto analisi di sensitività e aggiustamenti. La combinazione di tali metodi ha permesso, ad esempio, di ridurre la dimensione del data set richiesto per la generazione di un modello surrogato di una simulazione kMC per 4-Variable Water-Gas Shift. Infine, un nuovo metodo di valutazione dell’accuratezza del modello surrogato è stato considerato andando a valutare i cosiddetti Curve Matching Indexes. Tale approccio ha la potenzialità di andare a valutare la precisione del modello surrogato non considerando solo un mero errore in termine di distanza tra valori veri e predizioni, ma prendendo anche in considerazione la forma e il trend della funzione vera e di quella ottenuta dal modello surrogato. La versione modificata della procedura è stata utilizzata per generare un modello surrogato di diversi modelli kMC. Si è considerato un modello a 4 variabili di input per la reazione di Water Gas Shift e a dure variabili per l’ossidazione di CO. Infine, tali modelli surrogati sono stati inclusi in un framework per la simulazione reattiva di reattori catalitici, catalyticFoam, al fine di esemplificare la potenzialità del metodo in un semplice caso studio riguardando la reazione di WGS in un reattore tubolare washcoated.

An optimized training set design procedure for the machine learning tabulation of kinetic Monte Carlo simulations

ZAUPA NEBO, GUILHERME
2020/2021

Abstract

This work presents an assessment and specific improvements to an algorithm designed to iteratively build the training dataset to generate a surrogate Machine Learning model of first-principles microkinetic schemes, with special attention to Kinetic Monte Carlo (kMC) simulations. The surrogate models allow for including this kinetic description into detailed macroscale reactor modelling via Computational Fluid Dynamics simulations, overcoming the current limitation in geometry and flow conditions dictated by the intrinsically high computational burden of kMC simulations. The surrogate models are trained with pre-computed reaction rates generated from kMC simulations and, after training, the models can predict the chemical source terms in the governing equations without the need for heavy computations of a chemical step. The accuracy of the Machine Learning models is bonded to the quality of the training dataset that has to be able to properly provide to the algorithm the capability of learning the complex relations between the variables. In this view, a random generation of the dataset could result in the necessity of computing a huge number of training points, thus kMC simulations with a very high computational effort. To overcome this, a procedure to design the dataset has been proposed in previous works aiming at providing a highly representative dataset with a reduced number of datapoints. It by employs strategic sampling in the hyperspace defined by the independent variables of a kMC simulation, such as molar fractions and temperature. The starts with a small dataset and iteratively add additional training points in the region of the compositional space where the function shows the most complex behavior. This is achieved by working on two levels. First, the most relevant variables for the prediction of the target value are selected by using the variable importance feature of Machine Learning models aiming at the selection only the important direction for the training set refinement. Then, the position of the new point is chosen by considering the first and second derivatives of the target function to choose the intervals with steepest changes in the function to be improved with point addition. This assures the model learns the most important patterns of the function and thus increasing its accuracy while also requiring less training points than an evenly distributed sampling would, which implies in computational savings. The application of this method to kMC simulation requires specific modifications and improvement to the existing method. Hence, in this work, a methodology to control and post-process the kMC simulations is developed to automatically detect if a kMC simulation has reached its steady state and to extract the Turnover Frequency and Coverage Levels. Then, definition of the position of the new training points via the calculation of the first and second derivatives has been modified, by moving from a direction-wise analysis of the variable to a global method leading to a reduction of the number of points required by the model to reach the final accuracy. A new feature selection strategy, i.e., Boruta, is considered. Its main strength is the automatic definition of the important and unimportant variables avoiding the definition of a user-defined threshold parameter that generally requires tuning. This approach led to the reduction of the training dataset size from 2016 to 300 for a WGS kMC model without any relevant penalty in the prediction accuracy. A new performance measure, the Curve Matching Indexes, are also proposed to improve the current procedure termination criteria. The strength of these indexes is that they quantify the accuracy of the predictions not only by an error measurement, but also consider if the shape and trend of the predicted function are similar to the real function, which can provide relevant insights into the overall performance of the model. First, the method has been adapted an extended to deal with multidimensional systems and then tested in the kMC simulations modeling. Finally, the modified version of the design procedure has been employed to build surrogate models of a 4-variable input Water Gas Shift Reaction and 2-variable input CO oxidation kMC models. To exemplify the potential of the approach, the so-derived machine learning models have been included into a CFD numerical solver for heterogenous rection flows, i.e. catalyticFOAM, showing the application to a simple case study. The coupling was successful and a simulation of a WGS reaction in a washcoated tubular reactor with kMC generated reaction rates was performed.
BRACCONI, MAURO
ING - Scuola di Ingegneria Industriale e dell'Informazione
23-lug-2021
2020/2021
Questo lavoro di tesi riguarda la convalida e il miglioramento di un algoritmo precedentemente sviluppato per la generazione di input dataset necessari per allenare modelli surrogati di schemi cinetici ai principi primi, con particolare attenzione ai modelli di cinetica Monte Carlo (kMC), utilizzando tecniche di Intelligenza Artificiale. Tali modelli surrogati permettono di facilitare l’inclusione di cinetiche dettagliate all’interno della modellazione mediante Fluidodinamica Computazionale (CFD) di reattori catalitici eterogenei, superando le attuali limitazioni alle geometrie e condizioni operative imposte dall’elevato costo computazionale richiesto dalle simulazioni kMC. I modelli surrogati sono allenati con dati ottenuti pre-calcolando le velocità nette di produzione delle specie ottenute direttamene dalle simulazioni kMC. Dopo l’allenamento, questi modelli possono essere utilizzati per valutare i termini sorgente relativi alla chimica eterogenea nelle equazioni di trasporto senza il bisogno di risolvere le dispendiose simulazioni kMC. L’accuratezza dei modelli di Machine Learning è strettamente legata alla qualità del dataset di allenamento che deve permettere all’algoritmo di imparare tutte le relazioni, anche le più complesse, tra le variabili del modello. Una generazione casuale dei dati di input può determinare la necessità di utilizzare un gran numero di dati per ottenere un dataset rappresentativo, richiedendo, nel caso di simulazioni kMC, un enorme sforzo computazionale. Per superare tale limite, una procedura per la costruzione iterativa del dataset di allenamento è stata proposta in precedenza al fine di produrre un set di dati altamente rappresentativi minimizzando il numero di punti necessari a tal fine. La procedura utilizza un metodo di costruzione del dataset dove una raffinazione iterativa del dataset viene ottenuta andando a selezionare come regioni dove è necessario aggiungere punti solo quelle dove la funzione mostra il comportamento più complesso. Questo è ottenuto lavorando su due livelli. Le sole variabili indipendenti più importanti, ovvero quelle con il maggiore effetto sul risultato, vengono considerate durante la procedura di raffinamento del dataset. Questo è ottenuto utilizzando la capacità intrinseca dei modelli di machine learning di identificare l’importanza delle variabili. Dopodiché, la posizioni dei nuovi punti, lungo le direzioni importanti, è definita andando ad utilizzare la derivata prima e seconda per capire le regioni dove le variazioni della funzione sono più difficili da descrivere. Tale approccio genera un dataset che permette all’algoritmo di intelligenza artificiale di imparare le relazioni, anche complesse, tra le variabili riducendo il numero di dati di allenamento necessari. L’applicazione di questa metodologia alle simulazioni kMC richiede di fare specifiche modifiche e introdurre miglioramenti alla procedura esistente. Prima di tutto, è stato necessario sviluppare un metodo automatiche che identificasse che le simulazioni kMC avessero raggiunto uno stato pseudo stazionario e che procedesse al post-processamento al fine di estrarre le Turnover Frequencies e i coverage delle specie adsorbite. Dopodiché, la scelta della posizione dei nuovi punti da aggiungere mediante le derivate prime e seconde è stata migliorata andando a considerare un criterio di scelta che considerasse la funzione da un punto di vista globale evitando l’attuale segregazione variabile per variabile, ottenendo una riduzione del numero di training data. E’ stata, anche implementata, una nuova metodologia per la scelta delle variabili importanti, chiamata Boruta, che permette la scelta delle direzioni importanti senza richiedere la definizione di un valore di soglia da parte dell’utente, che ha se sempre richiesto analisi di sensitività e aggiustamenti. La combinazione di tali metodi ha permesso, ad esempio, di ridurre la dimensione del data set richiesto per la generazione di un modello surrogato di una simulazione kMC per 4-Variable Water-Gas Shift. Infine, un nuovo metodo di valutazione dell’accuratezza del modello surrogato è stato considerato andando a valutare i cosiddetti Curve Matching Indexes. Tale approccio ha la potenzialità di andare a valutare la precisione del modello surrogato non considerando solo un mero errore in termine di distanza tra valori veri e predizioni, ma prendendo anche in considerazione la forma e il trend della funzione vera e di quella ottenuta dal modello surrogato. La versione modificata della procedura è stata utilizzata per generare un modello surrogato di diversi modelli kMC. Si è considerato un modello a 4 variabili di input per la reazione di Water Gas Shift e a dure variabili per l’ossidazione di CO. Infine, tali modelli surrogati sono stati inclusi in un framework per la simulazione reattiva di reattori catalitici, catalyticFoam, al fine di esemplificare la potenzialità del metodo in un semplice caso studio riguardando la reazione di WGS in un reattore tubolare washcoated.
File allegati
File Dimensione Formato  
2021_07_ZaupaNebo.pdf

non accessibile

Dimensione 9.92 MB
Formato Adobe PDF
9.92 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/177864