In today’s era, the world faces a multitude of challenges that inherently impact one an- other and hinder the development of human civilization and the well-being of humanity on the planet. The Sustainable Development Goals (SDGs), adopted by the United Nations in 2015, form a comprehensive framework aimed at addressing these global challenges by 2030. Focusing our attention on these goals in the coming years is crucial for the survival of human civilization. Natural language processing techniques can help uncover discussions on Sustainable De- velopment Goals within the research literature. Specifically, we leverage topic modeling, a statistical technique used to identify topics in large collections of textual data. This thesis presents a solid topic modeling architecture: we improved and customized an existing workflow so as to include data retrieval from major scientific literature editors, data preparation, topic models’ learning, and results visualization on interactive dash- boards reporting topics’ temporal evolution. All in all, the main contribution of this thesis is to enhance previous work by 1) exploring how well Large Language Models perform on the topic modeling task when compared to the more classical BERTopic solution, and 2) applying a solid topic modeling pipeline to analyze how the United Nations Sustainable Development Goals are addressed in the scientific literature over time.
Nell’era odierna, il mondo si trova ad affrontare una moltitudine di sfide che hanno un impatto intrinseco l’una sull’altra e ostacolano lo sviluppo della civiltà umana e il be- nessere dell’umanità sul pianeta. Gli Obiettivi di Sviluppo Sostenibile (SDG), adottati dalle Nazioni Unite nel 2015, costituiscono un quadro completo volto ad affrontare queste sfide globali entro il 2030. Concentrare la nostra attenzione su questi obiettivi nei prossimi anni è fondamentale per la sopravvivenza della civiltà umana. Le tecniche di elaborazione del linguaggio naturale possono aiutare a scoprire le discussioni sugli SDG all’interno della letteratura di ricerca. In particolare, sfruttiamo il topic modeling, una tecnica sta- tistica utilizzata per identificare i topic in grandi raccolte di dati testuali. Questa tesi presenta una solida architettura di topic modeling: abbiamo migliorato e personalizzato un workflow esistente, includendo il recupero dei dati dai principali editori di letteratura scientifica, la preparazione dei dati, l’apprendimento dei modelli di topic e la visualiz- zazione dei risultati su dashboard interattive che riportano l’evoluzione temporale dei topic. Complessivamente, il contributo principale di questa tesi è quello di 1) esplorare le prestazioni dei Large Language Models nel compito di modellazione di topic rispetto alla soluzione più classica di BERTopic e 2) applicare una solida pipeline di modellazione di topic per analizzare come gli Obiettivi di Sviluppo Sostenibile delle Nazioni Unite vengono affrontati nella letteratura scientifica nel corso del tempo.
LLM-based topic modeling pipeline for big text datasets of scientific literature
JAKIMOV, JELENA
2023/2024
Abstract
In today’s era, the world faces a multitude of challenges that inherently impact one an- other and hinder the development of human civilization and the well-being of humanity on the planet. The Sustainable Development Goals (SDGs), adopted by the United Nations in 2015, form a comprehensive framework aimed at addressing these global challenges by 2030. Focusing our attention on these goals in the coming years is crucial for the survival of human civilization. Natural language processing techniques can help uncover discussions on Sustainable De- velopment Goals within the research literature. Specifically, we leverage topic modeling, a statistical technique used to identify topics in large collections of textual data. This thesis presents a solid topic modeling architecture: we improved and customized an existing workflow so as to include data retrieval from major scientific literature editors, data preparation, topic models’ learning, and results visualization on interactive dash- boards reporting topics’ temporal evolution. All in all, the main contribution of this thesis is to enhance previous work by 1) exploring how well Large Language Models perform on the topic modeling task when compared to the more classical BERTopic solution, and 2) applying a solid topic modeling pipeline to analyze how the United Nations Sustainable Development Goals are addressed in the scientific literature over time.File | Dimensione | Formato | |
---|---|---|---|
2024_10_Jakimov_Thesis_01.pdf
accessibile in internet per tutti a partire dal 17/09/2025
Dimensione
29.81 MB
Formato
Adobe PDF
|
29.81 MB | Adobe PDF | Visualizza/Apri |
2024_10_Jakimov_Executive Summary_02.pdf
accessibile in internet per tutti a partire dal 17/09/2025
Dimensione
993.91 kB
Formato
Adobe PDF
|
993.91 kB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/227060