The Italian legislative system is a vast corpus of documents of great importance for lawyers, judges, parliamentarians, and also for ordinary citizens. However, consulting these documents can be challenging: the language is complex, may include Latin terms or highly technical jargon, and– spanning a rather broad time frame (1948–2025)– has changed significantly over the years. To support navigation within the Italian legislative system, we built a topic model that groups documents based on semantic similarity and provides a clear and concise descrip tion of them. For this purpose, we reused a well-established topic modeling pipeline, adapting it to our dataset. To enrich the representation of topics and individual laws, we employed a framework based on LLMs, which extracted a set of keywords for each law. Leveraging the topic enclosing the law, we first generated a ranking of keywords ordered by relevance and importance with respect to each law, thereby enhancing its description. We then aggregated the rank ings of individual laws, thus obtaining a complementary (or alternative) representation of the topic. With our proposal, we augment the representations of topics in the legislative corpus, improving the interpretability of single laws and their enclosing topics, and enhancing their potential for systematic exploration.

Il sistema legislativo italiano è un corpus di documenti molto vasto e di grande importanza per avvocati, giudici, parlamentari e anche per i comuni cittadini. Tuttavia, la consul tazione dei documenti può risultare difficoltosa: il linguaggio è complesso, può includere termini latini o un gergo altamente tecnico e, coprendo un arco temporale piuttosto ampio (1948-2025), cambia in modo significativo nel corso degli anni. Per supportare la navigazione all’interno del sistema legislativo italiano abbiamo deciso di costruire un topic model che raggruppasse i documenti per vicinanza semantica e ne fornisse una descrizione chiara e sintetica. A tal fine abbiamo riutilizzato una pipeline di topic modeling già collaudata, adattandola al nostro dataset. Per arricchire la rappresentazione dei topic e delle singole leggi, abbiamo utilizzato un framework basato su LLMs, che ha estratto per ciascuna legge una serie di parole chiave. Sfruttando l’appartenenza ai topic, abbiamo dapprima generato un ranking di parole chiave ordinate per pertinenza e importanza rispetto alla singola legge, arricchendone così la descrizione. Abbiamo poi aggregato i ranking delle singole leggi, ottenendo una rappresentazione del topic complementare (o alternativa). Con la nostra proposta, arricchiamo le rappresentazioni dei topic nel corpus legislativo, migliorando l’interpretabilità delle singole leggi e dei topic di appartenenza, accrescendo il loro potenziale per un’esplorazione sistematica.

Augmenting topic representations in the italian legislation corpus

Telese, Flaminia
2024/2025

Abstract

The Italian legislative system is a vast corpus of documents of great importance for lawyers, judges, parliamentarians, and also for ordinary citizens. However, consulting these documents can be challenging: the language is complex, may include Latin terms or highly technical jargon, and– spanning a rather broad time frame (1948–2025)– has changed significantly over the years. To support navigation within the Italian legislative system, we built a topic model that groups documents based on semantic similarity and provides a clear and concise descrip tion of them. For this purpose, we reused a well-established topic modeling pipeline, adapting it to our dataset. To enrich the representation of topics and individual laws, we employed a framework based on LLMs, which extracted a set of keywords for each law. Leveraging the topic enclosing the law, we first generated a ranking of keywords ordered by relevance and importance with respect to each law, thereby enhancing its description. We then aggregated the rank ings of individual laws, thus obtaining a complementary (or alternative) representation of the topic. With our proposal, we augment the representations of topics in the legislative corpus, improving the interpretability of single laws and their enclosing topics, and enhancing their potential for systematic exploration.
COLOMBO, ANDREA
INVERNICI, FRANCESCO
ING - Scuola di Ingegneria Industriale e dell'Informazione
23-ott-2025
2024/2025
Il sistema legislativo italiano è un corpus di documenti molto vasto e di grande importanza per avvocati, giudici, parlamentari e anche per i comuni cittadini. Tuttavia, la consul tazione dei documenti può risultare difficoltosa: il linguaggio è complesso, può includere termini latini o un gergo altamente tecnico e, coprendo un arco temporale piuttosto ampio (1948-2025), cambia in modo significativo nel corso degli anni. Per supportare la navigazione all’interno del sistema legislativo italiano abbiamo deciso di costruire un topic model che raggruppasse i documenti per vicinanza semantica e ne fornisse una descrizione chiara e sintetica. A tal fine abbiamo riutilizzato una pipeline di topic modeling già collaudata, adattandola al nostro dataset. Per arricchire la rappresentazione dei topic e delle singole leggi, abbiamo utilizzato un framework basato su LLMs, che ha estratto per ciascuna legge una serie di parole chiave. Sfruttando l’appartenenza ai topic, abbiamo dapprima generato un ranking di parole chiave ordinate per pertinenza e importanza rispetto alla singola legge, arricchendone così la descrizione. Abbiamo poi aggregato i ranking delle singole leggi, ottenendo una rappresentazione del topic complementare (o alternativa). Con la nostra proposta, arricchiamo le rappresentazioni dei topic nel corpus legislativo, migliorando l’interpretabilità delle singole leggi e dei topic di appartenenza, accrescendo il loro potenziale per un’esplorazione sistematica.
File allegati
File Dimensione Formato  
2025_10_Telese_Tesi.pdf

solo utenti autorizzati a partire dal 28/09/2026

Dimensione 6.64 MB
Formato Adobe PDF
6.64 MB Adobe PDF   Visualizza/Apri
2025_10_Telese_Executive_Summary.pdf

solo utenti autorizzati a partire dal 28/09/2026

Dimensione 804.29 kB
Formato Adobe PDF
804.29 kB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/243366