Online event detection and time series analysis for identification of unknown unknowns in news articles

This thesis presents a novel approach to identify and analyze "unknown unknowns" or weak signals from a stream of textual data by leveraging advanced data science techniques. Focusing on the Italian language, it utilizes online event detection and time series analysis to process nearly one million news articles from leading Italian newspapers. Through the application of Natural Language Processing tasks such as Named Entity Recognition (NER), sentiment analysis, and topic modeling, this research demonstrates the effectiveness of text-based analytics in uncovering subtle signals indicative of potential shifts that are not yet recognized but could represent a risk or opportunity specially in a financial context. A novel event detection algorithm is developed and integrated with a comprehensive time series analysis framework, addressing a notable gap in existing studies—the absence of quantitative tools for early signal detection in an entirely unsupervised context. A key innovation of this thesis is the creation of an aggregate scoring system that quantifies the significance of identified entities and events, enabling a prioritized review without the need for predefined criteria or assumptions. This scoring system, coupled with a userfriendly Business Intelligence (BI) dashboard, provides an intuitive interface for financial professionals to navigate and interpret complex datasets, thereby enhancing decisionmaking processes and strategic planning. Overall, the proposed methodology demonstrates a promising ability to identify unknown unknowns before they fully manifest, thereby proposing a novel paradigm for financial analysis and emphasizing the untapped potential of text-based analytics in the discovery of unknown unknowns.

Questa tesi presenta un approccio innovativo per identificare e analizzare gli "unknown unknowns" o segnali deboli da un flusso di dati testuali sfruttando tecniche avanzate di data science. Concentrandosi sulla lingua italiana, utilizza il rilevamento di eventi online e l'analisi di serie temporali per elaborare quasi un milione di articoli di notizie dai principali giornali italiani. Attraverso l'applicazione di compiti di elaborazione del linguaggio naturale come il riconoscimento delle entità nominate, l'analisi del sentimento e la modellazione degli argomenti, questa ricerca dimostra l'efficacia dell'analitica basata su testi nel rivelare segnali sottili indicativi di potenziali cambiamenti non ancora riconosciuti, ma che potrebbero rappresentare un rischio o un'opportunità, specialmente in un contesto finanziario. È stato sviluppato un algoritmo di rilevamento eventi innovativo e integrato con un ampio framework di analisi di serie temporali, colmando una lacuna significativa negli studi esistenti: l'assenza di strumenti quantitativi per la rilevazione di early-warnings in un contesto completamente non supervisionato. Una innovazione chiave di questa tesi è la creazione di un sistema di punteggio aggregato che quantifica l'importanza delle entità e degli eventi identificati, consentendo una revisione prioritaria senza la necessità di criteri o presupposti predefiniti. Questo sistema di punteggio, abbinato a una dashboard \acrfull{BI} facile da usare, fornisce un'interfaccia intuitiva per i professionisti finanziari per navigare e interpretare set di dati complessi, migliorando così i processi decisionali e la pianificazione strategica. Nel complesso, la metodologia proposta dimostra una promettente capacità di identificare gli unknown unknowns prima che si manifestino completamente, proponendo così un nuovo paradigma per l'analisi finanziaria e sottolineando il potenziale inesplorato dell'analitica basata su testi nella scoperta di unknown unknowns.