Topic-aware semantic filtering and structured numerical information extraction from news articles using embeddings and LLMs

In contexts characterized by high-frequency information flows and strong linguistic heterogeneity, the need to transform unstructured news into reliable quantitative data is constantly growing. In these scenarios, the numerical values contained in news articles become important for comparative analysis, forecasting models, and decision support systems. However, the automatic extraction of such information is made complex by the presence of information noise, redundancy, linguistic ambiguity, and multilingualism. The thesis proposes and validates an automated methodology for the structured extraction of numerical values from open-source news streams, integrating semantic retrieval techniques based on multilingual embeddings with the controlled use of Large Language Models (LLMs). The approach is based on a modular pipeline developed in Python, divided into data acquisition (GDELT), deduplication, text segmentation, vector representation, statistical filtering, and subsequent structured extraction in JSON format. The system uses Claude family language models to identify and formalize numerical indicators, units of measurement, actors involved, and locations, ensuring the traceability and replicability of the process. The experiment, conducted on real-world case studies of military events and heterogeneous journalistic articles, highlighted high extraction accuracy and good stability of model behaviour in the presence of unambiguous texts. The main critical issues arise in complex linguistic configurations, such as ordinal numbers, implicit quantities, and numbers embedded in technical nouns. The results show that the reliability of numerical extraction depends not only on the capabilities of the language model, but above all on the accuracy of the preliminary semantic selection steps and the rigorous structuring of the entire operational process. The project therefore represents a contribution to the development of more controllable artificial intelligence systems, capable of converting large volumes of unstructured text into ordered and coherent numerical data, ready for use in large-scale analyses.

Nei contesti caratterizzati da flussi informativi ad alta frequenza e forte eterogeneità linguistica, la necessità di trasformare notizie non strutturate in dati quantitativi affidabili è in costante crescita. In questi scenari, i valori numerici contenuti negli articoli di news diventano importanti per analisi comparative, modelli previsionali e sistemi di supporto decisionale. Tuttavia, l’estrazione automatica di tali informazioni è resa complessa dalla presenza di rumore informativo, ridondanza, ambiguità linguistiche e multilinguismo. La tesi propone e valida una metodologia automatizzata per l’estrazione strutturata di valori numerici da flussi di notizie open-source, integrando tecniche di semantic retrieval basate su embeddings multilingue con l’uso controllato di Large Language Models (LLM). L’approccio si fonda su una pipeline modulare sviluppata in Python, suddivisa in acquisizione dati (GDELT), deduplicazione, segmentazione del testo, rappresentazione vettoriale, filtraggio statistico e successiva estrazione strutturata in formato JSON. Il sistema utilizza i modelli linguistici della famiglia Claude per identificare e formalizzare indicatori numerici, unità di misura, attori coinvolti e luoghi, garantendo la tracciabilità e la replicabilità del processo. L’esperimento, condotto su casi studio reali relativi a eventi militari e articoli giornalistici eterogenei, ha evidenziato un’elevata accuratezza nell’estrazione e una buona stabilità del comportamento dei modelli in presenza di testi non ambigui. Le principali criticità emergono in configurazioni linguistiche complesse, come numeri ordinali, quantità implicite e numeri incorporati in nomi tecnici. I risultati mostrano che l’affidabilità dell’estrazione numerica non dipende solo dalle capacità del modello linguistico, ma soprattutto dall’accuratezza delle fasi preliminari di selezione semantica e dalla strutturazione rigorosa dell’intero processo operativo. Il progetto rappresenta quindi un contributo per lo sviluppo di sistemi di intelligenza artificiale più controllabili, in grado di convertire grandi volumi di testi non strutturati in dati numerici ordinati e coerenti, pronti per essere utilizzati in analisi su larga scala.