Social media, with its pervasive and immediate nature and by generating an unprecedented flow of information, has revolutionized the way people experience and share reality, creating opportunities and challenges that span across multiple domains on a global scale. Given their real-time nature, social media platforms are ideal for accessing up-to-date, actionable information during time-critical events, such as emergencies. However, the complex and unstructured nature of social media-sourced data makes it challenging to extract valuable insights. This thesis addresses the need for effective data preparation methodologies to fully leverage social media, focusing on the unique challenges posed by its content during emergency events, with the ultimate goal of extracting critical, relevant information from vast and undifferentiated streams. Research on the relevance of data is conducted by exploring several key areas: the distinctive characteristics of social media content, the unpredictability and variability of events, and the need for tailorable data filtering; it does so by investigating methods for isolating relevant content, leveraging multimedia attachments to enhance situational awareness, detecting events of interest, adapting data filtering to evolving scenarios. Four guiding questions drive this research: (I)How can systematic approaches support the extraction of relevant data from social media streams, accounting for context-dependent requirements, and in particular during emergency events? (ii) How can a language-independent, social media-based, context-aware detection system for emergency scenarios be designed? (iii) How can continuous model adaptation during emergency events be achieved? (iv) What information can be inferred from media attachments, and how can they enhance available data in emergency scenarios? This thesis contributes to the field according to the investigated areas, by (i) proposing a methodology for designing data preparation pipelines, analyzing the dimensions for requirements and constraints and supporting the design with a human-in-the-loop enhancement procedure, (ii) investigating language-agnostic, customizable methods for early detection and characterization of large-scale events, (iii) studying adaptive filtering techniques through the lens of bounded labelling resources, and (iv) proposing innovative uses of multimedia attachments in social media posts, also leveraging recent advances in LLM technologies, to enrich the available information. These contributions aim to enhance situational awareness and the actionable value of gathered data, ultimately improving concrete decision-making processes such as disaster response and mitigation efforts. Through real-world case studies and empirical validation, this research aims to bridge the gap between current methodologies and practical needs for time- and resource-constrained data discovery and filtering, proposing validation scenarios in the field of emergency management and offering practical solutions for real-time social media data analysis.

I social media, con la loro immediatezza e la loro natura pervasiva, e generando un flusso di informazioni senza precedenti, hanno rivoluzionato il modo in cui le persone comprendono la realtà, creando opportunità e sfide su scala globale. Essendo in tempo reale, le piattaforme social sono ideali per ottenere informazioni aggiornate durante eventi critici, come ad esempio le emergenze. Tuttavia, la loro natura complessa e non strutturata rende difficile estrapolare le informazioni utili. Questa tesi affronta la necessità di metodologie efficaci per la data preparation, allo scopo di sfruttare appieno le sorgenti social media, e si focalizza sulle sfide specifiche poste dai contenuti social durante eventi di emergenza, con l’obiettivo di estrarre informazioni critiche e rilevanti da grandi moli di dati indifferenziati. La ricerca sulla rilevanza dei dati è condotta esplorando alcune aree fondamentali: le caratteristiche distintive dei contenuti provenienti dai social media, l’imprevedibilità e la variabilità degli eventi, e la necessità di personalizzazione nel filtraggio dei dati. Questo si traduce nell’indagine di metodi per isolare i contenuti rilevanti, per sfruttare i contenuti multimediali per aumentare la consapevolezza situazionale, per rilevare eventi di interesse, e per adattare le strategie di selezione dei dati a scenari evolutivi. Quattro domande fondamentali guidano questa ricerca: (i) Come definire approcci sistematici per supportare l’estrazione di dati rilevanti dai flussi provenienti da social media, considerando i requisiti dipendenti dal contesto, e in particolare durante eventi di emergenza? (ii) Come progettare un sistema di event detection basato sui social media, indipendente dalla lingua e orientato al contesto, mirato a scenari di emergenza? (iii) Come ottenere caratteristiche di adattività continua nei modelli durante l'evoluzione di eventi di emergenza? (iv) Quali informazioni possono essere dedotte dai contenuti multimediali, e come queste possono usate per arricchire i dati disponibili in scenari di emergenza? Questa tesi contribuisce alle aree di indagine proponendo: (i) Una metodologia per la progettazione di pipeline di data preparation, considerando le dimensioni relative ai requisiti e ai vincoli, e supportando il design con una procedura di raffinamento basata sul paradigma human-in-the-loop; (ii) Metodi flessibili e indipendenti dalla lingua per il rilevamento e la caratterizzazione tempestiva di eventi su larga scala; (iii) Tecniche di filtraggio adattivo nel contesto di etichettatura dei dati con risorse limitate; (iv) Usi innovativi dei contenuti multimediali dei post sui social media, utilizzando recenti progressi tecnologici, inclusi gli LLM, per arricchire le informazioni disponibili. Questi contributi mirano a migliorare la consapevolezza situazionale e l'utilità pratica dei dati raccolti, migliorando nel complesso i processi decisionali relativi alla gestione e alla mitigazione delle emergenze. Attraverso case study reali e procedure di validazione empirica, questa ricerca mira a colmare il divario tra le metodologie attuali e le esigenze pratiche di identificazione e selezione dei dati, in condizioni di tempo e risorse limitate, proponendo scenari nel campo della gestione delle emergenze e offrendo soluzioni efficaci per l’analisi dei social media in tempo reale.

Enhancing situational awareness through real-time social media data analysis

Bono, Carlo Alberto
2024/2025

Abstract

Social media, with its pervasive and immediate nature and by generating an unprecedented flow of information, has revolutionized the way people experience and share reality, creating opportunities and challenges that span across multiple domains on a global scale. Given their real-time nature, social media platforms are ideal for accessing up-to-date, actionable information during time-critical events, such as emergencies. However, the complex and unstructured nature of social media-sourced data makes it challenging to extract valuable insights. This thesis addresses the need for effective data preparation methodologies to fully leverage social media, focusing on the unique challenges posed by its content during emergency events, with the ultimate goal of extracting critical, relevant information from vast and undifferentiated streams. Research on the relevance of data is conducted by exploring several key areas: the distinctive characteristics of social media content, the unpredictability and variability of events, and the need for tailorable data filtering; it does so by investigating methods for isolating relevant content, leveraging multimedia attachments to enhance situational awareness, detecting events of interest, adapting data filtering to evolving scenarios. Four guiding questions drive this research: (I)How can systematic approaches support the extraction of relevant data from social media streams, accounting for context-dependent requirements, and in particular during emergency events? (ii) How can a language-independent, social media-based, context-aware detection system for emergency scenarios be designed? (iii) How can continuous model adaptation during emergency events be achieved? (iv) What information can be inferred from media attachments, and how can they enhance available data in emergency scenarios? This thesis contributes to the field according to the investigated areas, by (i) proposing a methodology for designing data preparation pipelines, analyzing the dimensions for requirements and constraints and supporting the design with a human-in-the-loop enhancement procedure, (ii) investigating language-agnostic, customizable methods for early detection and characterization of large-scale events, (iii) studying adaptive filtering techniques through the lens of bounded labelling resources, and (iv) proposing innovative uses of multimedia attachments in social media posts, also leveraging recent advances in LLM technologies, to enrich the available information. These contributions aim to enhance situational awareness and the actionable value of gathered data, ultimately improving concrete decision-making processes such as disaster response and mitigation efforts. Through real-world case studies and empirical validation, this research aims to bridge the gap between current methodologies and practical needs for time- and resource-constrained data discovery and filtering, proposing validation scenarios in the field of emergency management and offering practical solutions for real-time social media data analysis.
PIRODDI, LUIGI
AMIGONI, FRANCESCO
3-feb-2025
Enhancing situational awareness through real-time social media data analysis
I social media, con la loro immediatezza e la loro natura pervasiva, e generando un flusso di informazioni senza precedenti, hanno rivoluzionato il modo in cui le persone comprendono la realtà, creando opportunità e sfide su scala globale. Essendo in tempo reale, le piattaforme social sono ideali per ottenere informazioni aggiornate durante eventi critici, come ad esempio le emergenze. Tuttavia, la loro natura complessa e non strutturata rende difficile estrapolare le informazioni utili. Questa tesi affronta la necessità di metodologie efficaci per la data preparation, allo scopo di sfruttare appieno le sorgenti social media, e si focalizza sulle sfide specifiche poste dai contenuti social durante eventi di emergenza, con l’obiettivo di estrarre informazioni critiche e rilevanti da grandi moli di dati indifferenziati. La ricerca sulla rilevanza dei dati è condotta esplorando alcune aree fondamentali: le caratteristiche distintive dei contenuti provenienti dai social media, l’imprevedibilità e la variabilità degli eventi, e la necessità di personalizzazione nel filtraggio dei dati. Questo si traduce nell’indagine di metodi per isolare i contenuti rilevanti, per sfruttare i contenuti multimediali per aumentare la consapevolezza situazionale, per rilevare eventi di interesse, e per adattare le strategie di selezione dei dati a scenari evolutivi. Quattro domande fondamentali guidano questa ricerca: (i) Come definire approcci sistematici per supportare l’estrazione di dati rilevanti dai flussi provenienti da social media, considerando i requisiti dipendenti dal contesto, e in particolare durante eventi di emergenza? (ii) Come progettare un sistema di event detection basato sui social media, indipendente dalla lingua e orientato al contesto, mirato a scenari di emergenza? (iii) Come ottenere caratteristiche di adattività continua nei modelli durante l'evoluzione di eventi di emergenza? (iv) Quali informazioni possono essere dedotte dai contenuti multimediali, e come queste possono usate per arricchire i dati disponibili in scenari di emergenza? Questa tesi contribuisce alle aree di indagine proponendo: (i) Una metodologia per la progettazione di pipeline di data preparation, considerando le dimensioni relative ai requisiti e ai vincoli, e supportando il design con una procedura di raffinamento basata sul paradigma human-in-the-loop; (ii) Metodi flessibili e indipendenti dalla lingua per il rilevamento e la caratterizzazione tempestiva di eventi su larga scala; (iii) Tecniche di filtraggio adattivo nel contesto di etichettatura dei dati con risorse limitate; (iv) Usi innovativi dei contenuti multimediali dei post sui social media, utilizzando recenti progressi tecnologici, inclusi gli LLM, per arricchire le informazioni disponibili. Questi contributi mirano a migliorare la consapevolezza situazionale e l'utilità pratica dei dati raccolti, migliorando nel complesso i processi decisionali relativi alla gestione e alla mitigazione delle emergenze. Attraverso case study reali e procedure di validazione empirica, questa ricerca mira a colmare il divario tra le metodologie attuali e le esigenze pratiche di identificazione e selezione dei dati, in condizioni di tempo e risorse limitate, proponendo scenari nel campo della gestione delle emergenze e offrendo soluzioni efficaci per l’analisi dei social media in tempo reale.
File allegati
File Dimensione Formato  
Bono - PhD Thesis - Enhancing Situational Awareness through Real-Time Social Media Analysis - final.pdf

accessibile in internet per tutti

Dimensione 33.72 MB
Formato Adobe PDF
33.72 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/232412