Augmenting topic representations in the italian legislation corpus

Biblioteche e Archivi
POLITesi - Archivio digitale delle tesi di laurea e di dottorato

The Italian legislative system is a vast corpus of documents of great importance for lawyers, judges, parliamentarians, and also for ordinary citizens. However, consulting these documents can be challenging: the language is complex, may include Latin terms or highly technical jargon, and– spanning a rather broad time frame (1948–2025)– has changed significantly over the years. To support navigation within the Italian legislative system, we built a topic model that groups documents based on semantic similarity and provides a clear and concise descrip tion of them. For this purpose, we reused a well-established topic modeling pipeline, adapting it to our dataset. To enrich the representation of topics and individual laws, we employed a framework based on LLMs, which extracted a set of keywords for each law. Leveraging the topic enclosing the law, we first generated a ranking of keywords ordered by relevance and importance with respect to each law, thereby enhancing its description. We then aggregated the rank ings of individual laws, thus obtaining a complementary (or alternative) representation of the topic. With our proposal, we augment the representations of topics in the legislative corpus, improving the interpretability of single laws and their enclosing topics, and enhancing their potential for systematic exploration.

Il sistema legislativo italiano è un corpus di documenti molto vasto e di grande importanza per avvocati, giudici, parlamentari e anche per i comuni cittadini. Tuttavia, la consul tazione dei documenti può risultare difficoltosa: il linguaggio è complesso, può includere termini latini o un gergo altamente tecnico e, coprendo un arco temporale piuttosto ampio (1948-2025), cambia in modo significativo nel corso degli anni. Per supportare la navigazione all’interno del sistema legislativo italiano abbiamo deciso di costruire un topic model che raggruppasse i documenti per vicinanza semantica e ne fornisse una descrizione chiara e sintetica. A tal fine abbiamo riutilizzato una pipeline di topic modeling già collaudata, adattandola al nostro dataset. Per arricchire la rappresentazione dei topic e delle singole leggi, abbiamo utilizzato un framework basato su LLMs, che ha estratto per ciascuna legge una serie di parole chiave. Sfruttando l’appartenenza ai topic, abbiamo dapprima generato un ranking di parole chiave ordinate per pertinenza e importanza rispetto alla singola legge, arricchendone così la descrizione. Abbiamo poi aggregato i ranking delle singole leggi, ottenendo una rappresentazione del topic complementare (o alternativa). Con la nostra proposta, arricchiamo le rappresentazioni dei topic nel corpus legislativo, migliorando l’interpretabilità delle singole leggi e dei topic di appartenenza, accrescendo il loro potenziale per un’esplorazione sistematica.

Augmenting topic representations in the italian legislation corpus

Telese, Flaminia

2024/2025

Abstract

The Italian legislative system is a vast corpus of documents of great importance for lawyers, judges, parliamentarians, and also for ordinary citizens. However, consulting these documents can be challenging: the language is complex, may include Latin terms or highly technical jargon, and– spanning a rather broad time frame (1948–2025)– has changed significantly over the years. To support navigation within the Italian legislative system, we built a topic model that groups documents based on semantic similarity and provides a clear and concise descrip tion of them. For this purpose, we reused a well-established topic modeling pipeline, adapting it to our dataset. To enrich the representation of topics and individual laws, we employed a framework based on LLMs, which extracted a set of keywords for each law. Leveraging the topic enclosing the law, we first generated a ranking of keywords ordered by relevance and importance with respect to each law, thereby enhancing its description. We then aggregated the rank ings of individual laws, thus obtaining a complementary (or alternative) representation of the topic. With our proposal, we augment the representations of topics in the legislative corpus, improving the interpretability of single laws and their enclosing topics, and enhancing their potential for systematic exploration.

Scheda breve

Scheda completa

	Relatore
	
				Bernasconi, Anna
			
	Correlatore/i
	
				COLOMBO, ANDREA
INVERNICI, FRANCESCO
			
	Scuola / Dip.
	
				ING  - Scuola di Ingegneria Industriale e dell'Informazione
			
	Data
	
				23-ott-2025
			
	Anno accademico
	
				2024/2025
			
	Abstract in italiano
	
				Il sistema legislativo italiano è un corpus di documenti molto vasto e di grande importanza
 per avvocati, giudici, parlamentari e anche per i comuni cittadini. Tuttavia, la consul
tazione dei documenti può risultare difficoltosa: il linguaggio è complesso, può includere
 termini latini o un gergo altamente tecnico e, coprendo un arco temporale piuttosto ampio
 (1948-2025), cambia in modo significativo nel corso degli anni.
 Per supportare la navigazione all’interno del sistema legislativo italiano abbiamo deciso
 di costruire un topic model che raggruppasse i documenti per vicinanza semantica e ne
 fornisse una descrizione chiara e sintetica. A tal fine abbiamo riutilizzato una pipeline di
 topic modeling già collaudata, adattandola al nostro dataset.
 Per arricchire la rappresentazione dei topic e delle singole leggi, abbiamo utilizzato un
 framework basato su LLMs, che ha estratto per ciascuna legge una serie di parole chiave.
 Sfruttando l’appartenenza ai topic, abbiamo dapprima generato un ranking di parole
 chiave ordinate per pertinenza e importanza rispetto alla singola legge, arricchendone
 così la descrizione. Abbiamo poi aggregato i ranking delle singole leggi, ottenendo una
 rappresentazione del topic complementare (o alternativa).
 Con la nostra proposta, arricchiamo le rappresentazioni dei topic nel corpus legislativo,
 migliorando l’interpretabilità delle singole leggi e dei topic di appartenenza, accrescendo
 il loro potenziale per un’esplorazione sistematica.
			
	Appare nelle tipologie:
	
				Tesi di laurea Magistrale

File allegati

File	Dimensione	Formato
2025_10_Telese_Tesi.pdf solo utenti autorizzati a partire dal 28/09/2026 Dimensione 6.64 MB Formato Adobe PDF Visualizza/Apri	6.64 MB	Adobe PDF	Visualizza/Apri
2025_10_Telese_Executive_Summary.pdf solo utenti autorizzati a partire dal 28/09/2026 Dimensione 804.29 kB Formato Adobe PDF Visualizza/Apri	804.29 kB	Adobe PDF	Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/243366