UML modeling is essential for clarifying requirements and guiding design decisions, but in industrial practice, domain knowledge is often expressed primarily in natural language, resulting in ambiguity and a high cost of transforming it into consistent and up-to-date models. Large Language Models (LLM) enable automatic NL→UML generation, but the one-shot approach frequently produces fragile diagrams that are incomplete with respect to explicit text concepts and inconsistent between structural and behavioral views. This thesis proposes a multi-role LLM-based pipeline, MORPH-UML (Multi-Oracle Role-based Pipeline with High-assurance Checks), that makes NL→UML generation a repeatable and verifiable workflow: texts in natural language are first normalized, then generation, review, and correction are alternated with output constraints in PlantUML and automatic checks that provide operational signals for refinement. A key element of the architecture is to first stabilize the Class Diagram and use it as a source of truth to constrain the generation of Sequence Diagrams, reducing "ghost" classes/methods and improving the alignment between structure and behavior. The approach is evaluated on a dataset of 15 scenarios of increasing complexity, comparing a one-shot monolithic baseline with single-model and multi-model pipeline variants. The results show a marked increase in the conceptual completeness of class diagrams (keyword coverage from ~0.44 to ~0.99) and in Sequence↔Class consistency (median consistency score from ~0.40 to ~1.00), indicating that incorporating LLM into a constrained, measurable, and fix-oriented process produces more reliable UML models than direct generation. This thesis proposes a multi-role LLM-based pipeline that makes NL→UML generation a repeatable and verifiable workflow: requirements are first normalized, then generation, review, and correction are alternated with output constraints in PlantUML and automatic checks that provide operational signals for refinement. A key element of the architecture is to first stabilize the Class Diagram and use it as a source of truth to constrain the generation of Sequence Diagrams, reducing "ghost" classes/methods and improving the alignment between structure and behavior. The approach is evaluated on a dataset of 15 scenarios of increasing complexity, comparing a one-shot monolithic baseline with single-model and multi-model pipeline variants. The results show a marked increase in the conceptual completeness of class diagrams (keyword coverage from ~0.44 to ~0.99) and in Sequence↔Class consistency (median consistency score from ~0.40 to ~1.00), indicating that incorporating LLM into a constrained, measurable, and fix-oriented process produces more reliable UML models than direct generation.

La modellazione UML è fondamentale per chiarire requisiti e guidare le decisioni di design, ma nella pratica industriale la conoscenza di dominio è spesso espressa principalmente in linguaggio naturale, con ambiguità e un costo elevato di trasformazione in modelli coerenti e aggiornati. I Large Language Models (LLM) abilitano la generazione automatica NL→UML, tuttavia l’approccio one-shot produce frequentemente diagrammi fragili, incompleti rispetto ai concetti espliciti del testo e incoerenti tra viste strutturali e comportamentali. Questa tesi propone una pipeline multi-ruolo basata su LLM, MORPH-UML (Multi-Oracle Role-based Pipeline with High-assurance Checks), che rende la generazione NL→UML un workflow ripetibile e verificabile: i requisiti vengono prima normalizzati, poi si alternano generazione, revisione e correzione con vincoli di output in PlantUML e controlli automatici che forniscono segnali operativi per il raffinamento. Un elemento chiave dell’architettura è stabilizzare prima il Class Diagram e usarlo come source of truth per vincolare la generazione dei Sequence Diagram, riducendo classi/metodi “fantasma” e migliorando l’allineamento tra struttura e comportamento. L’approccio è valutato su un dataset di 15 scenari a complessità crescente, confrontando un baseline monolitico one-shot con varianti di pipeline single-model e multi-model. I risultati mostrano un incremento marcato della completezza concettuale dei Class Diagram (Keyword Coverage da ~0.44 a ~0.99) e della consistenza Sequence↔Class (mediana del Consistency Score da ~0.40 a ~1.00), indicando che l’inserimento dell’LLM in un processo vincolato, misurabile e orientato alla correzione produce modelli UML più affidabili rispetto alla generazione diretta. Questa tesi propone una pipeline multi-ruolo basata su LLM che rende la generazione NL→UML un workflow ripetibile e verificabile: i requisiti vengono prima normalizzati, poi si alternano generazione, revisione e correzione con vincoli di output in PlantUML e controlli automatici che forniscono segnali operativi per il raffinamento. Un elemento chiave dell’architettura è stabilizzare prima il Class Diagram e usarlo come source of truth per vincolare la generazione dei Sequence Diagram, riducendo classi/metodi “fantasma” e migliorando l’allineamento tra struttura e comportamento. L’approccio è valutato su un dataset di 15 scenari a complessità crescente, confrontando un baseline monolitico one-shot con varianti di pipeline single-model e multi-model. I risultati mostrano un incremento marcato della completezza concettuale dei Class Diagram (Keyword Coverage da ~0.44 a ~0.99) e della consistenza Sequence↔Class (mediana del Consistency Score da ~0.40 a ~1.00), indicando che l’inserimento dell’LLM in un processo vincolato, misurabile e orientato alla correzione produce modelli UML più affidabili rispetto alla generazione diretta.

Design and evaluation of an LLM-based multi agent pipeline to automate UML modeling

SILVESTRO, GIUSEPPE
2024/2025

Abstract

UML modeling is essential for clarifying requirements and guiding design decisions, but in industrial practice, domain knowledge is often expressed primarily in natural language, resulting in ambiguity and a high cost of transforming it into consistent and up-to-date models. Large Language Models (LLM) enable automatic NL→UML generation, but the one-shot approach frequently produces fragile diagrams that are incomplete with respect to explicit text concepts and inconsistent between structural and behavioral views. This thesis proposes a multi-role LLM-based pipeline, MORPH-UML (Multi-Oracle Role-based Pipeline with High-assurance Checks), that makes NL→UML generation a repeatable and verifiable workflow: texts in natural language are first normalized, then generation, review, and correction are alternated with output constraints in PlantUML and automatic checks that provide operational signals for refinement. A key element of the architecture is to first stabilize the Class Diagram and use it as a source of truth to constrain the generation of Sequence Diagrams, reducing "ghost" classes/methods and improving the alignment between structure and behavior. The approach is evaluated on a dataset of 15 scenarios of increasing complexity, comparing a one-shot monolithic baseline with single-model and multi-model pipeline variants. The results show a marked increase in the conceptual completeness of class diagrams (keyword coverage from ~0.44 to ~0.99) and in Sequence↔Class consistency (median consistency score from ~0.40 to ~1.00), indicating that incorporating LLM into a constrained, measurable, and fix-oriented process produces more reliable UML models than direct generation. This thesis proposes a multi-role LLM-based pipeline that makes NL→UML generation a repeatable and verifiable workflow: requirements are first normalized, then generation, review, and correction are alternated with output constraints in PlantUML and automatic checks that provide operational signals for refinement. A key element of the architecture is to first stabilize the Class Diagram and use it as a source of truth to constrain the generation of Sequence Diagrams, reducing "ghost" classes/methods and improving the alignment between structure and behavior. The approach is evaluated on a dataset of 15 scenarios of increasing complexity, comparing a one-shot monolithic baseline with single-model and multi-model pipeline variants. The results show a marked increase in the conceptual completeness of class diagrams (keyword coverage from ~0.44 to ~0.99) and in Sequence↔Class consistency (median consistency score from ~0.40 to ~1.00), indicating that incorporating LLM into a constrained, measurable, and fix-oriented process produces more reliable UML models than direct generation.
ING - Scuola di Ingegneria Industriale e dell'Informazione
26-mar-2026
2024/2025
La modellazione UML è fondamentale per chiarire requisiti e guidare le decisioni di design, ma nella pratica industriale la conoscenza di dominio è spesso espressa principalmente in linguaggio naturale, con ambiguità e un costo elevato di trasformazione in modelli coerenti e aggiornati. I Large Language Models (LLM) abilitano la generazione automatica NL→UML, tuttavia l’approccio one-shot produce frequentemente diagrammi fragili, incompleti rispetto ai concetti espliciti del testo e incoerenti tra viste strutturali e comportamentali. Questa tesi propone una pipeline multi-ruolo basata su LLM, MORPH-UML (Multi-Oracle Role-based Pipeline with High-assurance Checks), che rende la generazione NL→UML un workflow ripetibile e verificabile: i requisiti vengono prima normalizzati, poi si alternano generazione, revisione e correzione con vincoli di output in PlantUML e controlli automatici che forniscono segnali operativi per il raffinamento. Un elemento chiave dell’architettura è stabilizzare prima il Class Diagram e usarlo come source of truth per vincolare la generazione dei Sequence Diagram, riducendo classi/metodi “fantasma” e migliorando l’allineamento tra struttura e comportamento. L’approccio è valutato su un dataset di 15 scenari a complessità crescente, confrontando un baseline monolitico one-shot con varianti di pipeline single-model e multi-model. I risultati mostrano un incremento marcato della completezza concettuale dei Class Diagram (Keyword Coverage da ~0.44 a ~0.99) e della consistenza Sequence↔Class (mediana del Consistency Score da ~0.40 a ~1.00), indicando che l’inserimento dell’LLM in un processo vincolato, misurabile e orientato alla correzione produce modelli UML più affidabili rispetto alla generazione diretta. Questa tesi propone una pipeline multi-ruolo basata su LLM che rende la generazione NL→UML un workflow ripetibile e verificabile: i requisiti vengono prima normalizzati, poi si alternano generazione, revisione e correzione con vincoli di output in PlantUML e controlli automatici che forniscono segnali operativi per il raffinamento. Un elemento chiave dell’architettura è stabilizzare prima il Class Diagram e usarlo come source of truth per vincolare la generazione dei Sequence Diagram, riducendo classi/metodi “fantasma” e migliorando l’allineamento tra struttura e comportamento. L’approccio è valutato su un dataset di 15 scenari a complessità crescente, confrontando un baseline monolitico one-shot con varianti di pipeline single-model e multi-model. I risultati mostrano un incremento marcato della completezza concettuale dei Class Diagram (Keyword Coverage da ~0.44 a ~0.99) e della consistenza Sequence↔Class (mediana del Consistency Score da ~0.40 a ~1.00), indicando che l’inserimento dell’LLM in un processo vincolato, misurabile e orientato alla correzione produce modelli UML più affidabili rispetto alla generazione diretta.
File allegati
File Dimensione Formato  
2026_03_Silvestro_Executive Summary.pdf

accessibile in internet per tutti

Descrizione: Executive Summary
Dimensione 1.24 MB
Formato Adobe PDF
1.24 MB Adobe PDF Visualizza/Apri
2026_03_Silvestro_Tesi.pdf

accessibile in internet per tutti

Descrizione: Testo Tesi
Dimensione 3.36 MB
Formato Adobe PDF
3.36 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/253652