The progress towards renewable energy and the adoption of sustainable raw materials in the chemical sector require new approaches for the development of plants, catalysts, and functional materials. In this context, the collaboration between Machine Learning (ML) and chemical engineering emerges as crucial to fully harness the potential of both disciplines. This synergy not only accelerates the design and optimization processes, reducing development time, but also contributes to greater precision, lowering the chances of errors and enhancing overall process safety. The combination of ML and chemical engineering not only optimizes existing processes but also paves the way for new frontiers of innovation in the chemical industry, guiding the sector towards advanced sustainability. However, the lack of structured data in the chemical engineering sector limits the application of data-driven ML techniques. This thesis addresses this challenge by focusing on the digitization of P&IDs, extracted from sources such as scientific articles, patents, and laboratory manuals—an essential step to structure complex and unstructured data in chemical engineering. The proposed approach includes the use of synthetic data to train object detection models in P&ID digitization. Synthetic data not only addresses the scarcity of structured data but also provides opportunities for the development of industrial software solutions and the enhancement of AI capabilities in the field of process diagram digitization. The thesis thoroughly explores deep learning principles, synthetic dataset generation methodologies, training, and results, emphasizing the importance of scientific openness and diversity in datasets. In conclusion, the resulting Average Precision (AP) from the synthetic approach is 6.795%, indicating the validity of the proposed approach. When compared to the value of 25.1% obtained by the same model with real data, the need for further research in process diagram digitization becomes apparent.
Il progresso verso l'energia rinnovabile e l'adozione di materie prime sostenibili nel settore chimico richiedono nuovi approcci per lo sviluppo di impianti, catalizzatori e materiali funzionali. In questo contesto, la collaborazione tra Machine Learning (ML) e ingegneria chimica emerge come cruciale per sfruttare appieno le potenzialità di entrambe le discipline. Questa sinergia non solo accelera i processi di progettazione e ottimizzazione, riducendo il tempo necessario per lo sviluppo, ma anche contribuisce a una maggiore precisione, riducendo le possibilità di errori e migliorando complessivamente la sicurezza dei processi. La combinazione di ML e ingegneria chimica non solo ottimizza i processi esistenti, ma apre la strada a nuove frontiere di innovazione nell'industria chimica, guidando il settore verso una sostenibilità più avanzata. Tuttavia, la mancanza di dati strutturati nel settore ingegneria chimica limita l'applicazione di tecniche ML basate sui dati. Questa tesi affronta questa sfida focalizzandosi sulla digitalizzazione dei P&ID, estratti da fonti come articoli scientifici, brevetti e manuali di laboratorio, un passo essenziale per strutturare dati complessi e non strutturati in ingegneria chimica. L'approccio proposto include l'uso di dati sintetici per addestrare modelli di rilevamento oggetti nella digitalizzazione dei P&ID. I dati sintetici non solo affrontano la scarsità di dati strutturati, ma offrono anche possibilità per lo sviluppo di soluzioni software industriali e il miglioramento delle capacità dell'IA nell'ambito della digitalizzazione dei diagrammi di processo. La tesi esplora approfonditamente principi di deep learning, metodologie di generazione di dataset sintetici, addestramenti e risultati, sottolineando l'importanza dell'apertura scientifica e della diversità nei dataset. Concludendo, l'Average Precision (AP) risultante dall'approccio sintetico è 6.795%, indicando la validità dell'approccio proposto. Confrontato con il valore di 25.1% ottenuto dallo stesso modello con dati reali, emerge la necessità di ulteriori ricerche nella digitalizzazione di diagrammi di processo.
Automatic digitization of piping and instumentation diagrams: effect of synthetic data on object detection performance
Iorio, Giovanni
2023/2024
Abstract
The progress towards renewable energy and the adoption of sustainable raw materials in the chemical sector require new approaches for the development of plants, catalysts, and functional materials. In this context, the collaboration between Machine Learning (ML) and chemical engineering emerges as crucial to fully harness the potential of both disciplines. This synergy not only accelerates the design and optimization processes, reducing development time, but also contributes to greater precision, lowering the chances of errors and enhancing overall process safety. The combination of ML and chemical engineering not only optimizes existing processes but also paves the way for new frontiers of innovation in the chemical industry, guiding the sector towards advanced sustainability. However, the lack of structured data in the chemical engineering sector limits the application of data-driven ML techniques. This thesis addresses this challenge by focusing on the digitization of P&IDs, extracted from sources such as scientific articles, patents, and laboratory manuals—an essential step to structure complex and unstructured data in chemical engineering. The proposed approach includes the use of synthetic data to train object detection models in P&ID digitization. Synthetic data not only addresses the scarcity of structured data but also provides opportunities for the development of industrial software solutions and the enhancement of AI capabilities in the field of process diagram digitization. The thesis thoroughly explores deep learning principles, synthetic dataset generation methodologies, training, and results, emphasizing the importance of scientific openness and diversity in datasets. In conclusion, the resulting Average Precision (AP) from the synthetic approach is 6.795%, indicating the validity of the proposed approach. When compared to the value of 25.1% obtained by the same model with real data, the need for further research in process diagram digitization becomes apparent.File | Dimensione | Formato | |
---|---|---|---|
2024_04_Iorio_Tesi.pdf
solo utenti autorizzati a partire dal 13/03/2027
Dimensione
7.8 MB
Formato
Adobe PDF
|
7.8 MB | Adobe PDF | Visualizza/Apri |
2024_04_Iorio_Executive_summary.pdf
solo utenti autorizzati a partire dal 13/03/2027
Dimensione
1.89 MB
Formato
Adobe PDF
|
1.89 MB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/218892