The growing complexity and vast data generation in industrial processes, particularly in pharmaceutical manufacturing, necessitate advanced methods for process control and optimization. This study investigates data-driven approaches for categorizing and visualizing key parameters in the industrial penicillin fermentation simulation, IndPenSim. The ultimate goal of this work is to answer the question: “To what extent can a data-driven pipeline, which encompasses statistical analysis, uncertainty quantification, and machine learning-based feature selection, enhance process monitoring, control, and optimization in industrial-scale penicillin production?” The study utilizes historical batch data from IndPenSim to examine the influence of key parameters, including penicillin, biomass, and phenylacetic acid concentrations. Employing statistical techniques, the study defines quality criteria and precision metrics, facilitating a systematic assessment of batch performance and precision. Precision metrics, such as penalized distance evaluation, provide a structured framework for assessing variability and reliability. Additionally, machine learning models, such as Random Forest, are employed to identify the most influential parameters driving process performance and precision. Furthermore, a key contribution of this work is the development of an interactive visualization framework that facilitates monitoring of batch performance and precision. The framework enhances process interpretability, enabling data-driven decision-making and efficiency improvements. In response to the research question, this study demonstrates that a data-driven pipeline incorporating statistical methods, visualization, and machine learning models enhances batch monitoring, addresses uncertainty, and reinforces process stability when integrated with process fundamentals. By uncovering hidden patterns and complex interactions among bioprocess parameters, the proposed framework provides a scalable approach to improving process control and optimization, consequently enabling more targeted control strategies that enhance production consistency and product quality.

La crescente complessità e la vasta generazione di dati nei processi industriali, in particolare nella produzione farmaceutica, richiedono metodi avanzati per il controllo e l'ottimizzazione dei processi. Questo studio analizza approcci basati sui dati per la categorizzazione e la visualizzazione dei principali parametri nella simulazione industriale della fermentazione della penicillina, IndPenSim. L'obiettivo finale di questo lavoro è rispondere alla domanda: “In che misura una pipeline basata sui dati, che comprende analisi statistiche, quantificazione dell'incertezza e selezione delle caratteristiche basata su machine learning, può migliorare il monitoraggio, il controllo e l'ottimizzazione della produzione industriale di penicillina?” Lo studio utilizza dati storici di batch provenienti da IndPenSim per esaminare l'influenza dei parametri chiave, tra cui le concentrazioni di penicillina, biomassa e acido fenilacetico. Attraverso tecniche statistiche, vengono definiti criteri di qualità e metriche di precisione, facilitando una valutazione sistematica delle prestazioni e della precisione del batch. Le metriche di precisione, come la valutazione della distanza penalizzata, forniscono un quadro strutturato per analizzare la variabilità e l'affidabilità del processo. Inoltre, modelli di machine learning, come il Random Forest, vengono impiegati per identificare i parametri più influenti che guidano le prestazioni e la precisione del processo. Un contributo chiave di questo lavoro è lo sviluppo di un framework di visualizzazione interattivo che facilita il monitoraggio delle prestazioni e della precisione dei batch, migliorando l’interpretabilità del processo e consentendo decisioni basate sui dati per aumentare l'efficienza. In risposta alla domanda di ricerca, questo studio dimostra che una pipeline basata sui dati, che integra metodi statistici, visualizzazione e modelli di machine learning, migliora il monitoraggio dei batch, affronta l’incertezza e rafforza la stabilità del processo quando combinata con i principi fondamentali del processo stesso. Rivelando schemi nascosti e interazioni complesse tra i parametri del bioprocesso, il framework proposto offre un approccio scalabile per migliorare il controllo e l’ottimizzazione del processo, consentendo strategie di controllo più mirate che incrementano la coerenza della produzione e la qualità del prodotto.

Data-driven uncertainty categorization and visualization in industrial fermentation simulation

NEJABAT, FARID
2024/2025

Abstract

The growing complexity and vast data generation in industrial processes, particularly in pharmaceutical manufacturing, necessitate advanced methods for process control and optimization. This study investigates data-driven approaches for categorizing and visualizing key parameters in the industrial penicillin fermentation simulation, IndPenSim. The ultimate goal of this work is to answer the question: “To what extent can a data-driven pipeline, which encompasses statistical analysis, uncertainty quantification, and machine learning-based feature selection, enhance process monitoring, control, and optimization in industrial-scale penicillin production?” The study utilizes historical batch data from IndPenSim to examine the influence of key parameters, including penicillin, biomass, and phenylacetic acid concentrations. Employing statistical techniques, the study defines quality criteria and precision metrics, facilitating a systematic assessment of batch performance and precision. Precision metrics, such as penalized distance evaluation, provide a structured framework for assessing variability and reliability. Additionally, machine learning models, such as Random Forest, are employed to identify the most influential parameters driving process performance and precision. Furthermore, a key contribution of this work is the development of an interactive visualization framework that facilitates monitoring of batch performance and precision. The framework enhances process interpretability, enabling data-driven decision-making and efficiency improvements. In response to the research question, this study demonstrates that a data-driven pipeline incorporating statistical methods, visualization, and machine learning models enhances batch monitoring, addresses uncertainty, and reinforces process stability when integrated with process fundamentals. By uncovering hidden patterns and complex interactions among bioprocess parameters, the proposed framework provides a scalable approach to improving process control and optimization, consequently enabling more targeted control strategies that enhance production consistency and product quality.
GEORGIA RAIDOU, RENATA
ING - Scuola di Ingegneria Industriale e dell'Informazione
3-apr-2025
2024/2025
La crescente complessità e la vasta generazione di dati nei processi industriali, in particolare nella produzione farmaceutica, richiedono metodi avanzati per il controllo e l'ottimizzazione dei processi. Questo studio analizza approcci basati sui dati per la categorizzazione e la visualizzazione dei principali parametri nella simulazione industriale della fermentazione della penicillina, IndPenSim. L'obiettivo finale di questo lavoro è rispondere alla domanda: “In che misura una pipeline basata sui dati, che comprende analisi statistiche, quantificazione dell'incertezza e selezione delle caratteristiche basata su machine learning, può migliorare il monitoraggio, il controllo e l'ottimizzazione della produzione industriale di penicillina?” Lo studio utilizza dati storici di batch provenienti da IndPenSim per esaminare l'influenza dei parametri chiave, tra cui le concentrazioni di penicillina, biomassa e acido fenilacetico. Attraverso tecniche statistiche, vengono definiti criteri di qualità e metriche di precisione, facilitando una valutazione sistematica delle prestazioni e della precisione del batch. Le metriche di precisione, come la valutazione della distanza penalizzata, forniscono un quadro strutturato per analizzare la variabilità e l'affidabilità del processo. Inoltre, modelli di machine learning, come il Random Forest, vengono impiegati per identificare i parametri più influenti che guidano le prestazioni e la precisione del processo. Un contributo chiave di questo lavoro è lo sviluppo di un framework di visualizzazione interattivo che facilita il monitoraggio delle prestazioni e della precisione dei batch, migliorando l’interpretabilità del processo e consentendo decisioni basate sui dati per aumentare l'efficienza. In risposta alla domanda di ricerca, questo studio dimostra che una pipeline basata sui dati, che integra metodi statistici, visualizzazione e modelli di machine learning, migliora il monitoraggio dei batch, affronta l’incertezza e rafforza la stabilità del processo quando combinata con i principi fondamentali del processo stesso. Rivelando schemi nascosti e interazioni complesse tra i parametri del bioprocesso, il framework proposto offre un approccio scalabile per migliorare il controllo e l’ottimizzazione del processo, consentendo strategie di controllo più mirate che incrementano la coerenza della produzione e la qualità del prodotto.
File allegati
File Dimensione Formato  
2025_04_Nejabat_Thesis_01.pdf

accessibile in internet per tutti

Descrizione: Thesis Text
Dimensione 6.83 MB
Formato Adobe PDF
6.83 MB Adobe PDF Visualizza/Apri
2025_04_Nejabat_Executive_Summary_02.pdf

accessibile in internet per tutti

Descrizione: Thesis Executive Summary
Dimensione 1.11 MB
Formato Adobe PDF
1.11 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/235332