Deep reinforcement learning for UAV patrolling in rescue operations

This project arises from the concern about the feasibility and possible optimization of implementing AI and Machine Learning techniques in time-sensitive rescue operations. Aligned with the burgeoning global trend, the UAV sector is pioneering less human-dependent and more effective methodologies for efficient drone deployment in disaster-stricken areas, enhancing rescue operations and emergency communication. The analysis begins with characterizing the area of interest through a grid map, specifically tailored for UAV planning and exploration methodologies. The selected map outlines the primary monitoring area during volcanic eruptions and it is employed by public safety agencies in the concrete context of Mount Etna. A detailed analysis of Reinforcement Learning, with a focus on its application to drone patrolling problems, justifies the preference for Deep Reinforcement Learning. Deep Q-Learning is chosen among its variants. The problem formulation involves discretizing the relevance map for UAV traversal and defining a reward policy based on drone actions. The neural network is trained using specific evaluation metrics to achieve homogeneous area coverage with temporal redundancy, prohibition enforcement to stay within the map boundaries, and environmental adaptability. The search for results progresses from the application of Deep Q-Learning on a homogeneous relevance map to its application on a heterogeneous map, culminating in the acknowledgment of Double Deep Q-Learning as a more suitable tool for UAV rescue problems. Additionally, tuning the hyperparameters of the neural network has been explored to achieve close to optimal results, offering insights for future real-world applications.

Questo progetto nasce dalla explorazione sulla fattibilità e all’ottimizzazione possibile nell’implementazione di tecniche di Intelligenza Artificiale (AI) e Machine Learning in operazioni di soccorso sensibili al tempo. In linea con la crescente tendenza globale, il settore degli UAV sta sviluppando metodologie meno dipendenti dall’uomo e più efficaci per il dispiegamento efficiente di droni in aree colpite da disastri, migliorando le operazioni di soccorso e la comunicazione d’emergenza. L’analisi inizia con la caratterizzazione dell’area di interesse attraverso una mappa a griglia, appositamente progettata per metodologie di pianificazione ed esplorazione degli UAV. La mappa selezionata delinea l’area primaria di monitoraggio durante le eruzioni vulcaniche ed è utilizzata dalle agenzie di sicurezza pubblica nel contesto concreto del Monte Etna. Un’analisi dettagliata del Reinforcement Learning, con un focus sulla sua applicazione ai problemi di pattugliamento dei droni, giustifica la preferenza per il Deep Reinforcement Learning. Tra le sue varianti, viene scelto il Deep Q-Learning. La formulazione del problema prevede la discretizzazione della mappa di rilevanza per il transito degli UAV e la definizione di una politica di ricompensa basata sulle azioni dei droni. La rete neurale viene addestrata utilizzando specifiche metriche di valutazione per ottenere una copertura omogenea dell’area con ridondanza temporale, l’applicazione del divieto di uscire dai confini della mappa e l’adattabilità ambientale. La ricerca dei risultati procede dall’applicazione del Deep Q-Learning su una mappa di rilevanza omogenea a quella su una mappa eterogenea, culminando nel riconoscimento del Double Deep Q-Learning come uno strumento più adatto per i problemi di soccorso degli UAV. Inoltre, sono stati tarati gli iperparametri della rete neurale per raggiungere risultati prossimi all’ottimo, offrendo spunti per future applicazioni nel mondo reale.