Pipe and Instrumentation Tag Extraction with Multimodal Large Language Models

This thesis explores the development of a novel approach for automating the extraction of tags from a highlighted area of Piping and Instrumentation Diagrams (P&IDs) using multimodal large language models (MLLMs). P&IDs are crucial for representing the control and instrumentation of industrial processes, yet manual extraction of relevant information is labor-intensive and prone to errors. This research tackles these challenges by using a structured methodology that harnesses the advanced multimodal understanding of MLLMs, combined with image processing and prompt engineering, to optimize the P&ID tag extraction process. The core of this work focuses on enhancing the model’s ability to accurately detect and extract tags from complex diagrams through the careful preparation and manipulation of input data. By leveraging Multimodal large language models’ capacity for contex- tual understanding and pattern recognition, the approach improves both efficiency and precision. Experimental results demonstrate that the developed approach significantly enhances the accuracy and speed of tag extraction, outperforming traditional manual methods. It allows flexible extraction of information from diagrams by just modifying the prompt, eliminating the need for training a new model or fine-tuning a pretrained one which for this task could be quite expensive both in terms of Time and cost. Additionally, it uniquely associates the extracted tags with their relevant subsystems, a capability absent in previous methods. The findings have potential implications for industries that rely on process control docu- mentation, providing a pathway to greater efficiency and reliability in extracting critical information.

Questa tesi esplora lo sviluppo di un nuovo approccio per automatizzare l’estrazione di tag da un’area evidenziata di diagrammi di tubazioni e strumentazione (Piping and Instru- mentation Diagram) o (P&ID) utilizzando Multimodal Large Language Models (MLLMs). I P&ID sono fondamentali per rappresentare il controllo e la strumentazione dei processi industriali, tuttavia l’estrazione manuale di informazioni rilevanti è laboriosa e soggetta a errori. Questa ricerca affronta queste sfide utilizzando una metodologia strutturata che sfrutta la comprensione multimodale avanzata dei MLLM, combinata con Image process- ing e Prompt engineering, per ottimizzare il processo di estrazione dei tag P&ID. Il fulcro di questo lavoro si concentra sul miglioramento della capacità del modello di rilevare ed estrarre accuratamente i tag da diagrammi complessi attraverso l’attenta preparazione e manipolazione dei dati di input. Sfruttando la capacità dei MLLMs per la comprensione contestuale e il riconoscimento di pattern, l’approccio migliora sia l’efficienza che la precisione. I risultati sperimentali dimostrano che l’approccio sviluppato migliora significativamente l’accuratezza e la velocità dell’estrazione dei tag, superando i metodi manuali tradizionali. Consente l’estrazione flessibile di informazioni dai diagrammi semplicemente modificando il prompt, eliminando la necessità di training un nuovo modello o di fine-tuning uno pre- trained, il che per questo compito potrebbe essere piuttosto costoso sia in termini di tempo che di costi. Inoltre, associa in modo univoco i tag estratti ai loro sottosistemi pertinenti, una capacità assente nei metodi precedenti. I risultati hanno potenziali implicazioni per i settori che si affidano alla documentazione del controllo di processo, fornendo un percorso verso una maggiore efficienza e affidabilità nell’estrazione di informazioni critiche.