Toward context-aware LLM-driven UAVs

Unmanned Aerial Vehicles (UAVs), commonly known as drones, are rapidly evolving from systems operated by experts to autonomous platforms that can be used by non-specialists. This shift introduces new challenges for Human-Drone Interaction (HDI), a research area within Human-Robot Interaction (HRI), where interaction is increasingly viewed as a cognitive and social process shaped by perception, context, and mutual adaptation. Early HDI systems mainly focused on manual piloting or gesture-based control. More recently, advances in Large Language Models (LLMs) and multimodal reasoning have allowed drones to understand natural-language goals and autonomously generate executable plans. However, current approaches remain divided between interaction paradigms that enable user-driven customization and systems primarily designed for goal-oriented communication. Writable interaction paradigms, such as DronWO, allow users to define new executable drone actions through gesture-based sequences. These approaches support expressive and customizable interaction but can create cognitive overload and generally lack mechanisms for contextual reasoning and long-term adaptation. In contrast, LLM-based systems such as TypeFly simplify interaction by allowing users to describe goals directly in natural language, leaving planning and execution to the system. While this approach enables flexible task decomposition, it offers limited support for user-driven extensions, environmental awareness, or learning from previous interactions. This thesis addresses the gap between these two directions by proposing a context-aware HDI framework that combines writable interaction with reasoning-based autonomy. We introduce the Drone Adaptive Context-aware System, an adaptive architecture that transforms natural-language interaction into an ongoing co-learning process. In this process, the drone learns user preferences and environmental structure, while users progressively learn how to guide and personalize the system. The architecture is based on a conceptual model in which an LLM serves as the central reasoning component, coordinating interaction between the user, a multi-level memory system, environmental perception modules, and the drone’s physical actions. The system supports adaptation at both the interaction and environmental levels, enabling the drone to interpret user intent, learn from past experiences, and reason about its surroundings when planning actions. Over time, interaction evolves as the drone refines its responses through experience and users improve how they express their goals. This mutual adaptation shifts HDI from isolated command execution to a continuous and context-aware collaborative process. To evaluate the proposed framework, we conducted a comparative user study examining how interaction changes when adaptive capabilities are introduced into HDI. Ten participants performed open-ended tasks, including object search and repeated requests, allowing us to observe how users formulated commands, provided feedback, and gradually shaped system behavior. Results show that interaction with the baseline TypeFly system often stalled when target objects were not immediately visible. In these cases, users had to manually restart execution and issue sequences of low-level commands (for example, “move forward by…” or “turn by…”) to locate hidden objects, since the baseline system lacked an autonomous exploration strategy. Questionnaire responses reflected this limitation: four out of five baseline participants reported little or no sense that the drone remembered previously visited areas, and confidence in its exploration behavior remained low. Because each request was handled independently, interaction with the baseline system was frequently perceived as fragmented and reactive rather than collaborative. In contrast, interaction with the Drone Adaptive Context-aware System developed as a continuous exchange in which both the drone and the user adapted over time. The system treated feedback as guidance that influenced future behavior, reused past observations to support new decisions, and adjusted exploration strategies based on environmental context. All participants interacting with the adaptive system reported high confidence in its exploration behavior, rating it between 4 and 5 on a 5-point Likert scale (1 = very low, 5 = very high), along with consistently high perceived usefulness of feedback. Participants described the interaction as clearer and less frustrating, emphasizing a stronger sense of cooperation. These findings indicate that context-aware adaptation can transform HDI from isolated command execution into an evolving collaborative process.

I veicoli aerei senza pilota (UAV), comunemente noti come droni, stanno evolvendo rapidamente da strumenti destinati a operatori esperti a sistemi autonomi utilizzabili anche da utenti non specialisti. Questa trasformazione introduce nuove sfide per l’Interazione Uomo-Drone (HDI), un ambito di ricerca che rientra nel più ampio campo dell’Interazione Uomo-Robot (HRI), dove l’interazione è considerata un processo cognitivo e sociale influenzato da percezione, contesto e adattamento reciproco. I primi sistemi di HDI si basavano principalmente sul pilotaggio manuale o su controlli gestuali. Oggi, grazie ai progressi nei Modelli Linguistici di Grandi Dimensioni (LLM) e nel ragionamento multimodale, i droni sono in grado di comprendere obiettivi espressi in linguaggio naturale e di generare autonomamente piani di azione eseguibili. Nonostante questi sviluppi, gli approcci attuali restano divisi tra paradigmi che puntano alla personalizzazione dell’interazione da parte dell’utente e sistemi progettati soprattutto per una comunicazione orientata al raggiungimento dell’obiettivo. I paradigmi di interazione “scrivibile”, come il sistema DronWO, consentono agli utenti di modellare attivamente il comportamento del drone definendo nuove azioni attraverso sequenze di gesti. Questi approcci favoriscono interazioni espressive e altamente personalizzabili, ma comportano un carico cognitivo significativo e offrono limitate capacità di ragionamento contestuale e di adattamento nel lungo periodo. Al contrario, framework basati su modelli linguistici, come TypeFly, semplificano l’interazione permettendo agli utenti di descrivere direttamente gli obiettivi in linguaggio naturale, delegando al sistema la pianificazione e l’esecuzione. Tuttavia, questo paradigma fornisce un supporto limitato per l’estensione guidata dall’utente, la consapevolezza dell’ambiente e l’apprendimento dalle interazioni precedenti. Questa tesi affronta la distanza tra questi due approcci proponendo un framework di HDI sensibile al contesto che integra l’interazione scrivibile con un’autonomia basata sul ragionamento. Viene presentato il Drone Adaptive Context-aware System, un’architettura adattiva che trasforma l’interazione in linguaggio naturale in un processo continuo di co-apprendimento. In questo processo, il drone apprende le preferenze dell’utente e la struttura dell’ambiente, mentre l’utente impara progressivamente a guidare e personalizzare il sistema attraverso l’esperienza. L’architettura si fonda su un modello concettuale in cui un modello linguistico svolge il ruolo di componente centrale di ragionamento, coordinando l’interazione tra utente, una memoria multilivello, i moduli di percezione ambientale e l’esecuzione fisica del drone. Il sistema supporta l’adattamento sia a livello interattivo sia a livello ambientale, consentendo al drone di interpretare l’intento dell’utente, apprendere dalle esperienze passate e ragionare sul contesto circostante durante la pianificazione delle azioni. Nel tempo, l’interazione evolve: il drone migliora le proprie risposte grazie all’esperienza e gli utenti affinano il modo in cui formulano i propri obiettivi. Questo adattamento reciproco trasforma l’HDI da una sequenza di comandi isolati in una forma continua e consapevole di collaborazione. Per valutare l’approccio proposto è stato condotto uno studio comparativo con utenti, con l’obiettivo di analizzare come l’interazione cambi con l’introduzione di capacità adattive. Dieci partecipanti hanno svolto attività aperte, tra cui la ricerca di oggetti e richieste ripetute, permettendo di osservare come formulavano i comandi, fornivano feedback e modellavano progressivamente il comportamento del sistema. I risultati indicano che l’interazione con il sistema di riferimento TypeFly si interrompeva spesso quando l’oggetto da trovare non era immediatamente visibile. In questi casi, gli utenti intervenivano manualmente riavviando l’esecuzione e impartendo sequenze di comandi a basso livello (ad esempio “avanza di…” o “ruota di…”) per individuare oggetti nascosti, poiché il sistema non disponeva di una strategia autonoma di esplorazione. Le risposte ai questionari confermano questa limitazione: quattro partecipanti su cinque nel gruppo baseline hanno dichiarato di percepire poco o per nulla la capacità del drone di ricordare le aree già visitate, e la fiducia nei comportamenti di esplorazione è risultata bassa. Poiché ogni richiesta veniva gestita separatamente, l’interazione è stata spesso percepita come frammentata e reattiva, piuttosto che collaborativa. Al contrario, l’interazione con il Drone Adaptive Context-aware System si è sviluppata come uno scambio continuo in cui sia il drone sia l’utente si adattavano nel tempo. Il sistema interpretava il feedback come indicazione per i comportamenti successivi, riutilizzava osservazioni precedenti per supportare nuove decisioni e adattava le strategie di esplorazione in base al contesto ambientale. Tutti i partecipanti che hanno utilizzato il sistema adattivo hanno riportato un alto livello di fiducia nei comportamenti di esplorazione, con valutazioni comprese tra 4 e 5 su una scala Likert a 5 punti (1 = molto bassa, 5 = molto alta), insieme a una percezione elevata dell’utilità del feedback. Gli utenti hanno descritto l’interazione come più chiara e meno frustrante, sottolineando una maggiore sensazione di cooperazione e mostrando come l’adattamento sensibile al contesto possa trasformare l’HDI da semplice esecuzione di comandi isolati in un processo collaborativo in continua evoluzione.