Design and evaluation of an LLM-based multi agent pipeline to automate UML modeling

UML modeling is essential for clarifying requirements and guiding design decisions, but in industrial practice, domain knowledge is often expressed primarily in natural language, resulting in ambiguity and a high cost of transforming it into consistent and up-to-date models. Large Language Models (LLM) enable automatic NL→UML generation, but the one-shot approach frequently produces fragile diagrams that are incomplete with respect to explicit text concepts and inconsistent between structural and behavioral views. This thesis proposes a multi-role LLM-based pipeline, MORPH-UML (Multi-Oracle Role-based Pipeline with High-assurance Checks), that makes NL→UML generation a repeatable and verifiable workflow: texts in natural language are first normalized, then generation, review, and correction are alternated with output constraints in PlantUML and automatic checks that provide operational signals for refinement. A key element of the architecture is to first stabilize the Class Diagram and use it as a source of truth to constrain the generation of Sequence Diagrams, reducing "ghost" classes/methods and improving the alignment between structure and behavior. The approach is evaluated on a dataset of 15 scenarios of increasing complexity, comparing a one-shot monolithic baseline with single-model and multi-model pipeline variants. The results show a marked increase in the conceptual completeness of class diagrams (keyword coverage from ~0.44 to ~0.99) and in Sequence↔Class consistency (median consistency score from ~0.40 to ~1.00), indicating that incorporating LLM into a constrained, measurable, and fix-oriented process produces more reliable UML models than direct generation. This thesis proposes a multi-role LLM-based pipeline that makes NL→UML generation a repeatable and verifiable workflow: requirements are first normalized, then generation, review, and correction are alternated with output constraints in PlantUML and automatic checks that provide operational signals for refinement. A key element of the architecture is to first stabilize the Class Diagram and use it as a source of truth to constrain the generation of Sequence Diagrams, reducing "ghost" classes/methods and improving the alignment between structure and behavior. The approach is evaluated on a dataset of 15 scenarios of increasing complexity, comparing a one-shot monolithic baseline with single-model and multi-model pipeline variants. The results show a marked increase in the conceptual completeness of class diagrams (keyword coverage from ~0.44 to ~0.99) and in Sequence↔Class consistency (median consistency score from ~0.40 to ~1.00), indicating that incorporating LLM into a constrained, measurable, and fix-oriented process produces more reliable UML models than direct generation.

La modellazione UML è fondamentale per chiarire requisiti e guidare le decisioni di design, ma nella pratica industriale la conoscenza di dominio è spesso espressa principalmente in linguaggio naturale, con ambiguità e un costo elevato di trasformazione in modelli coerenti e aggiornati. I Large Language Models (LLM) abilitano la generazione automatica NL→UML, tuttavia l’approccio one-shot produce frequentemente diagrammi fragili, incompleti rispetto ai concetti espliciti del testo e incoerenti tra viste strutturali e comportamentali. Questa tesi propone una pipeline multi-ruolo basata su LLM, MORPH-UML (Multi-Oracle Role-based Pipeline with High-assurance Checks), che rende la generazione NL→UML un workflow ripetibile e verificabile: i requisiti vengono prima normalizzati, poi si alternano generazione, revisione e correzione con vincoli di output in PlantUML e controlli automatici che forniscono segnali operativi per il raffinamento. Un elemento chiave dell’architettura è stabilizzare prima il Class Diagram e usarlo come source of truth per vincolare la generazione dei Sequence Diagram, riducendo classi/metodi “fantasma” e migliorando l’allineamento tra struttura e comportamento. L’approccio è valutato su un dataset di 15 scenari a complessità crescente, confrontando un baseline monolitico one-shot con varianti di pipeline single-model e multi-model. I risultati mostrano un incremento marcato della completezza concettuale dei Class Diagram (Keyword Coverage da ~0.44 a ~0.99) e della consistenza Sequence↔Class (mediana del Consistency Score da ~0.40 a ~1.00), indicando che l’inserimento dell’LLM in un processo vincolato, misurabile e orientato alla correzione produce modelli UML più affidabili rispetto alla generazione diretta. Questa tesi propone una pipeline multi-ruolo basata su LLM che rende la generazione NL→UML un workflow ripetibile e verificabile: i requisiti vengono prima normalizzati, poi si alternano generazione, revisione e correzione con vincoli di output in PlantUML e controlli automatici che forniscono segnali operativi per il raffinamento. Un elemento chiave dell’architettura è stabilizzare prima il Class Diagram e usarlo come source of truth per vincolare la generazione dei Sequence Diagram, riducendo classi/metodi “fantasma” e migliorando l’allineamento tra struttura e comportamento. L’approccio è valutato su un dataset di 15 scenari a complessità crescente, confrontando un baseline monolitico one-shot con varianti di pipeline single-model e multi-model. I risultati mostrano un incremento marcato della completezza concettuale dei Class Diagram (Keyword Coverage da ~0.44 a ~0.99) e della consistenza Sequence↔Class (mediana del Consistency Score da ~0.40 a ~1.00), indicando che l’inserimento dell’LLM in un processo vincolato, misurabile e orientato alla correzione produce modelli UML più affidabili rispetto alla generazione diretta.