This study examines pedestrian visual attention in urban environments and its influence on navigation, spatial cognition, and safety. Pedestrians rely on visual attention for wayfinding, obstacle avoidance, and traffic signal recognition, yet their attention is shaped by various urban elements, such as building facades, advertisements, traffic signs, and green spaces. Understanding these influences is essential for optimizing urban design and traffic safety. Existing research employs surveys, eye-tracking experiments, trajectory analysis, and computer vision models, each with limitations. Surveys are prone to biases, eye-tracking studies are costly and small in scale, trajectory analysis captures movement but not attention, and saliency prediction models may lack contextual understanding of urban environments. These challenges highlight the need for a scalable, automated approach to studying pedestrian attention. To address this gap, this study develops a deep learning-based framework integrating semantic segmentation and saliency prediction to quantify how urban elements influence pedestrian attention. Using street-view imagery and annotated semantic maps, the framework trains models to estimate attention distribution, validated through eye-tracking data. Statistical analysis and heatmap visualization identify key urban features that attract or compete for attention, including traffic signs, advertisements, architectural elements, and green spaces. Applied to diverse urban settings, the model provides a structured analysis of attention patterns. Unlike previous studies, this approach incorporates detailed semantic annotations for improved interpretability. However, due to data limitations, the study does not directly assess the effects of dynamic factors such as lighting, weather, and pedestrian density, focusing instead on static urban features. Key contributions include: (1) an automated deep learning framework for large-scale pedestrian attention analysis, (2) enhanced saliency prediction through semantic segmentation and eye-tracking data, and (3) empirical insights into how urban design influences pedestrian attention, supporting data-driven urban planning and traffic management. Limitations include dataset constraints affecting model generalizability and the exclusion of dynamic environmental factors. Future research could expand real-world eye-tracking studies and incorporate multimodal data to enhance predictive accuracy. The findings contribute to a deeper understanding of pedestrian visual attention and offer insights for optimizing urban environments and improving pedestrian safety.
Questo studio esamina l'attenzione visiva dei pedoni negli ambienti urbani e la sua influenza sulla navigazione, la cognizione spaziale e la sicurezza. I pedoni si affidano all'attenzione visiva per l'orientamento, l'evitamento degli ostacoli e il riconoscimento dei segnali stradali, ma la loro attenzione è influenzata da vari elementi urbani, come facciate degli edifici, pubblicità, segnali stradali e spazi verdi. Comprendere queste influenze è essenziale per ottimizzare la progettazione urbana e la sicurezza del traffico. Le ricerche esistenti impiegano sondaggi, esperimenti con eye-tracking, analisi delle traiettorie e modelli di visione artificiale, ciascuno con delle limitazioni. I sondaggi sono soggetti a bias, gli studi con eye-tracking sono costosi e di piccola scala, l'analisi delle traiettorie cattura il movimento ma non l’attenzione, e i modelli di predizione della salienza potrebbero non comprendere appieno il contesto urbano. Queste sfide evidenziano la necessità di un approccio scalabile e automatizzato per studiare l’attenzione dei pedoni. Per colmare questa lacuna, lo studio sviluppa un framework basato su deep learning che integra segmentazione semantica e predizione della salienza per quantificare l'influenza degli elementi urbani sull'attenzione pedonale. Utilizzando immagini di street-view e mappe semantiche annotate, il framework addestra modelli per stimare la distribuzione dell'attenzione, validata attraverso dati di eye-tracking. L'analisi statistica e la visualizzazione tramite heatmap identificano le caratteristiche urbane chiave che attraggono o competono per l'attenzione, tra cui segnali stradali, pubblicità, elementi architettonici e spazi verdi. Applicato a contesti urbani diversi, il modello fornisce un'analisi strutturata dei modelli di attenzione. A differenza degli studi precedenti, questo approccio incorpora annotazioni semantiche dettagliate per una migliore interpretabilità. Tuttavia, a causa delle limitazioni dei dati, lo studio non valuta direttamente gli effetti di fattori dinamici come illuminazione, condizioni meteorologiche e densità pedonale, concentrandosi invece su elementi urbani statici. I principali contributi includono: (1) un framework automatizzato basato su deep learning per l'analisi su larga scala dell'attenzione pedonale, (2) una predizione della salienza migliorata attraverso segmentazione semantica e dati di eye-tracking e (3) approfondimenti empirici su come la progettazione urbana influenzi l'attenzione pedonale, supportando la pianificazione urbana e la gestione del traffico basate sui dati. Le limitazioni includono vincoli del dataset che influenzano la generalizzabilità del modello e l'esclusione di fattori ambientali dinamici. La ricerca futura potrebbe espandere gli studi di eye-tracking nel mondo reale e integrare dati multimodali per migliorare l'accuratezza predittiva. I risultati contribuiscono a una comprensione più approfondita dell'attenzione visiva dei pedoni e offrono spunti per ottimizzare gli ambienti urbani e migliorare la sicurezza pedonale.
Pedestrian saliency prediction in urban spaces: integrating semantic segmentation and cross-attention mechanisms
Li, Yingkai
2023/2024
Abstract
This study examines pedestrian visual attention in urban environments and its influence on navigation, spatial cognition, and safety. Pedestrians rely on visual attention for wayfinding, obstacle avoidance, and traffic signal recognition, yet their attention is shaped by various urban elements, such as building facades, advertisements, traffic signs, and green spaces. Understanding these influences is essential for optimizing urban design and traffic safety. Existing research employs surveys, eye-tracking experiments, trajectory analysis, and computer vision models, each with limitations. Surveys are prone to biases, eye-tracking studies are costly and small in scale, trajectory analysis captures movement but not attention, and saliency prediction models may lack contextual understanding of urban environments. These challenges highlight the need for a scalable, automated approach to studying pedestrian attention. To address this gap, this study develops a deep learning-based framework integrating semantic segmentation and saliency prediction to quantify how urban elements influence pedestrian attention. Using street-view imagery and annotated semantic maps, the framework trains models to estimate attention distribution, validated through eye-tracking data. Statistical analysis and heatmap visualization identify key urban features that attract or compete for attention, including traffic signs, advertisements, architectural elements, and green spaces. Applied to diverse urban settings, the model provides a structured analysis of attention patterns. Unlike previous studies, this approach incorporates detailed semantic annotations for improved interpretability. However, due to data limitations, the study does not directly assess the effects of dynamic factors such as lighting, weather, and pedestrian density, focusing instead on static urban features. Key contributions include: (1) an automated deep learning framework for large-scale pedestrian attention analysis, (2) enhanced saliency prediction through semantic segmentation and eye-tracking data, and (3) empirical insights into how urban design influences pedestrian attention, supporting data-driven urban planning and traffic management. Limitations include dataset constraints affecting model generalizability and the exclusion of dynamic environmental factors. Future research could expand real-world eye-tracking studies and incorporate multimodal data to enhance predictive accuracy. The findings contribute to a deeper understanding of pedestrian visual attention and offer insights for optimizing urban environments and improving pedestrian safety.File | Dimensione | Formato | |
---|---|---|---|
2025_04_Li.pdf
solo utenti autorizzati a partire dal 11/03/2028
Descrizione: testo tesi
Dimensione
7.43 MB
Formato
Adobe PDF
|
7.43 MB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/235006