The present work is dedicated to the determination of the most promising machine learning algorithm and the most suitable set of dimensionless features for estimating the the flow pattern in two-phase flows. Accordingly, using a comprehensive and heterogeneous dataset retrieved from the literature, a machine learning based pipeline, which receives dimensionless quantities as inputs and the flow regime as the target is developed and optimized. Employing a benchmark algorithm, a wrapping feature selection algorithm is next applied, and the most promising combination of dimensionless features is determined. Subsequently, the algorithm selection and tuning procedure is performed in order to identity the most suitable machine learning algorithm (and its corresponding hyper-parameters) which leads to the highest achievable cross-validation accuracy. The obtained results demonstrate that the determined optimal pipeline utilizes only five dimensionless features as inputs, which simplified the model's complexity and facilitates the physical interpretation. Furthermore, employing the optimal pipeline a test accuracy of 95.9% and a macro averaged F1-score of 95.4% is achieved, which is greater than the accuracy that can be obtained using any other model that is currently available in literature. The estimations of the proposed pipeline are also compared with those provided by the state-of-the-art multi-phase flow regime maps and the corresponding coherence has been demonstrated. In order to enhance the model's reproducibility and ease-of-use, the optimal pipeline has been made publicly accessible as an open-source software.

Questo lavoro è dedicato alla determinazione dell'algoritmo di machine learning più promettente e del miglior insieme di variabili adimensionali in grado di predirre il tipo di regime bifase all’interno di una generica componente industriale. Pertanto, utilizzando un dataset eterogeneo, una machine learning pipleine che riceve quantità fisiche come inputs e i regimi di flusso come target è sviluppata ed ottimizzata. Pertanto, in un primo step, i dati vengono pre-elaborati, sostituendo valori mancanti o errati, per poi inserire quantità fisiche di interesse. A seguire, vari modelli di machine learning vengono confrontati tra di loro, al fine di individuare quello più promettente per risolvere il problema in questione. Utilizzando il miglior algoritmo identificato nel passaggio precedente, il miglior set di variabili adimensionali è quindi determinato tramite un processo di feature selection iterativo. In seguito, lo step di ottimizzazione dei vari modelli viene ripetuto, questa volta utilizzando solo il sottoinsieme di variabili, ed il miglior algoritmo (in termini di cross-validation accuracy) è individuato. Tale modello utilizza solo cinque variabili adimensionali, ma è in grado di raggiungere una accuratezza del 95,9% ed un F1-score medio del 95,4% sul test set, maggiore di qualsiasi altro modello attualmente disponibile in letteratura. Ai fini di verificare la generalizzabilità del modello, questo è anche utilizzato per riprodurre alcune delle mappe di flusso bifase più note, ed i risultati si dimostrano essere estremamente soddisfacenti. Infine, per garantire una maggiore fruibilità del modello, la pipeline ottimizzata è resa disponibile tramite un software open source.

Flow regime estimation in two-phase flows employing machine learning : investigation of the most promising dimensionless feature set

Benetti, Alessandro
2020/2021

Abstract

The present work is dedicated to the determination of the most promising machine learning algorithm and the most suitable set of dimensionless features for estimating the the flow pattern in two-phase flows. Accordingly, using a comprehensive and heterogeneous dataset retrieved from the literature, a machine learning based pipeline, which receives dimensionless quantities as inputs and the flow regime as the target is developed and optimized. Employing a benchmark algorithm, a wrapping feature selection algorithm is next applied, and the most promising combination of dimensionless features is determined. Subsequently, the algorithm selection and tuning procedure is performed in order to identity the most suitable machine learning algorithm (and its corresponding hyper-parameters) which leads to the highest achievable cross-validation accuracy. The obtained results demonstrate that the determined optimal pipeline utilizes only five dimensionless features as inputs, which simplified the model's complexity and facilitates the physical interpretation. Furthermore, employing the optimal pipeline a test accuracy of 95.9% and a macro averaged F1-score of 95.4% is achieved, which is greater than the accuracy that can be obtained using any other model that is currently available in literature. The estimations of the proposed pipeline are also compared with those provided by the state-of-the-art multi-phase flow regime maps and the corresponding coherence has been demonstrated. In order to enhance the model's reproducibility and ease-of-use, the optimal pipeline has been made publicly accessible as an open-source software.
COLOMBO, LUIGI PIETRO MARIA
ING - Scuola di Ingegneria Industriale e dell'Informazione
7-ott-2021
2020/2021
Questo lavoro è dedicato alla determinazione dell'algoritmo di machine learning più promettente e del miglior insieme di variabili adimensionali in grado di predirre il tipo di regime bifase all’interno di una generica componente industriale. Pertanto, utilizzando un dataset eterogeneo, una machine learning pipleine che riceve quantità fisiche come inputs e i regimi di flusso come target è sviluppata ed ottimizzata. Pertanto, in un primo step, i dati vengono pre-elaborati, sostituendo valori mancanti o errati, per poi inserire quantità fisiche di interesse. A seguire, vari modelli di machine learning vengono confrontati tra di loro, al fine di individuare quello più promettente per risolvere il problema in questione. Utilizzando il miglior algoritmo identificato nel passaggio precedente, il miglior set di variabili adimensionali è quindi determinato tramite un processo di feature selection iterativo. In seguito, lo step di ottimizzazione dei vari modelli viene ripetuto, questa volta utilizzando solo il sottoinsieme di variabili, ed il miglior algoritmo (in termini di cross-validation accuracy) è individuato. Tale modello utilizza solo cinque variabili adimensionali, ma è in grado di raggiungere una accuratezza del 95,9% ed un F1-score medio del 95,4% sul test set, maggiore di qualsiasi altro modello attualmente disponibile in letteratura. Ai fini di verificare la generalizzabilità del modello, questo è anche utilizzato per riprodurre alcune delle mappe di flusso bifase più note, ed i risultati si dimostrano essere estremamente soddisfacenti. Infine, per garantire una maggiore fruibilità del modello, la pipeline ottimizzata è resa disponibile tramite un software open source.
File allegati
File Dimensione Formato  
Tesi_Benetti_Alessandro.pdf

Open Access dal 17/09/2022

Descrizione: Tesi
Dimensione 3.61 MB
Formato Adobe PDF
3.61 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/180334