The Italian legislative system is a vast corpus of documents of great importance for lawyers, judges, parliamentarians, and also for ordinary citizens. However, consulting these documents can be challenging: the language is complex, may include Latin terms or highly technical jargon, and– spanning a rather broad time frame (1948–2025)– has changed significantly over the years. To support navigation within the Italian legislative system, we built a topic model that groups documents based on semantic similarity and provides a clear and concise descrip tion of them. For this purpose, we reused a well-established topic modeling pipeline, adapting it to our dataset. To enrich the representation of topics and individual laws, we employed a framework based on LLMs, which extracted a set of keywords for each law. Leveraging the topic enclosing the law, we first generated a ranking of keywords ordered by relevance and importance with respect to each law, thereby enhancing its description. We then aggregated the rank ings of individual laws, thus obtaining a complementary (or alternative) representation of the topic. With our proposal, we augment the representations of topics in the legislative corpus, improving the interpretability of single laws and their enclosing topics, and enhancing their potential for systematic exploration.
Il sistema legislativo italiano è un corpus di documenti molto vasto e di grande importanza per avvocati, giudici, parlamentari e anche per i comuni cittadini. Tuttavia, la consul tazione dei documenti può risultare difficoltosa: il linguaggio è complesso, può includere termini latini o un gergo altamente tecnico e, coprendo un arco temporale piuttosto ampio (1948-2025), cambia in modo significativo nel corso degli anni. Per supportare la navigazione all’interno del sistema legislativo italiano abbiamo deciso di costruire un topic model che raggruppasse i documenti per vicinanza semantica e ne fornisse una descrizione chiara e sintetica. A tal fine abbiamo riutilizzato una pipeline di topic modeling già collaudata, adattandola al nostro dataset. Per arricchire la rappresentazione dei topic e delle singole leggi, abbiamo utilizzato un framework basato su LLMs, che ha estratto per ciascuna legge una serie di parole chiave. Sfruttando l’appartenenza ai topic, abbiamo dapprima generato un ranking di parole chiave ordinate per pertinenza e importanza rispetto alla singola legge, arricchendone così la descrizione. Abbiamo poi aggregato i ranking delle singole leggi, ottenendo una rappresentazione del topic complementare (o alternativa). Con la nostra proposta, arricchiamo le rappresentazioni dei topic nel corpus legislativo, migliorando l’interpretabilità delle singole leggi e dei topic di appartenenza, accrescendo il loro potenziale per un’esplorazione sistematica.
Augmenting topic representations in the italian legislation corpus
Telese, Flaminia
2024/2025
Abstract
The Italian legislative system is a vast corpus of documents of great importance for lawyers, judges, parliamentarians, and also for ordinary citizens. However, consulting these documents can be challenging: the language is complex, may include Latin terms or highly technical jargon, and– spanning a rather broad time frame (1948–2025)– has changed significantly over the years. To support navigation within the Italian legislative system, we built a topic model that groups documents based on semantic similarity and provides a clear and concise descrip tion of them. For this purpose, we reused a well-established topic modeling pipeline, adapting it to our dataset. To enrich the representation of topics and individual laws, we employed a framework based on LLMs, which extracted a set of keywords for each law. Leveraging the topic enclosing the law, we first generated a ranking of keywords ordered by relevance and importance with respect to each law, thereby enhancing its description. We then aggregated the rank ings of individual laws, thus obtaining a complementary (or alternative) representation of the topic. With our proposal, we augment the representations of topics in the legislative corpus, improving the interpretability of single laws and their enclosing topics, and enhancing their potential for systematic exploration.| File | Dimensione | Formato | |
|---|---|---|---|
|
2025_10_Telese_Tesi.pdf
solo utenti autorizzati a partire dal 28/09/2026
Dimensione
6.64 MB
Formato
Adobe PDF
|
6.64 MB | Adobe PDF | Visualizza/Apri |
|
2025_10_Telese_Executive_Summary.pdf
solo utenti autorizzati a partire dal 28/09/2026
Dimensione
804.29 kB
Formato
Adobe PDF
|
804.29 kB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/243366