Recent advancements in Generative AI have contributed to the emergence of a new interaction paradigm centered on intent formulation. Despite the exceptional popularity Large Language Models (LLM) have recently gained and the unprecedented opportunities they have unlocked, ensuring the user intent is accurately captured by the model, from a prompt expressed in natural language, remains challenging, especially when prompt refinements must be applied iteratively. Usability problems are even more critical when situational or permanent disabilities demand voice-based interaction. Despite the effort directed toward improving usability in LLM Graphical User Interfaces (GUI), it remains unclear whether analogous results can be achieved in voice-only interfaces. Given the key role Voice-based User Interfaces (VUI) play in accessibility, ensuring their usability is fundamental. Inspired by emerging interaction techniques based on direct manipulation principles proposed for LLM GUIs, and informed by a prior user study with Blind and Visually Impaired (BVI) individuals whose findings revealed new design opportunities in voice-based human-LLM interactions, this thesis investigates whether direct manipulation principles can inspire the definition of new vocal interaction patterns. To prove the feasibility of the proposed vocal interaction paradigm, the thesis introduces the architecture of a prototype used to conduct validation activities with 9 participants. Although further investigation will be required to fully prove the validity of the new paradigm, the findings revealed positive self-reported perceptions concerning usability, workload, and technology acceptance. Critical reflections also emerged from the thematic analysis of participants' qualitative feedback. Overall, these activities were successful in eliciting genuine user needs and expectations, informing future work and the next design iterations.

I recenti progressi nell’ambito dell’Intelligenza Artificiale Generativa hanno contribuito all’emergere di un nuovo paradigma di interazione centrato sulla formulazione dell’intento. Nonostante l’eccezionale popolarità recentemente acquisita dai Large Language Models (LLMs) e le opportunità senza precedenti che hanno aperto, garantire una corretta comprensione dell’intento dell’utente da parte del modello, partendo da un prompt espresso in linguaggio naturale, rimane una sfida, soprattutto quando il prompt va raffinato iterativamente. I problemi di usabilità risultano ancora più critici quando disabilità, permanenti o situazionali, rendono necessaria l’interazione vocale. Nonostante gli sforzi volti a migliorare l’usabilità delle interfacce grafiche (GUI) per LLM, non è ancora chiaro se risultati analoghi possano essere ottenuti anche in interfacce esclusivamente vocali. Considerato il ruolo chiave che le interfacce vocali (VUI) ricoprono in termini di accessibilità, garantirne l’usabilità risulta fondamentale. Ispirata dalle tecniche di interazione emergenti basate sui principi della manipolazione diretta, proposte per le GUI degli LLM, e supportata da un precedente studio condotto con persone cieche o ipovedenti, i cui risultati hanno evidenziato nuove opportunità nel design dell’interazione vocale con gli LLM, questa tesi si propone di indagare se tali principi possano ispirare la definizione di nuovi pattern di interazione vocale. Per dimostrare la fattibilità del paradigma proposto, viene presentata l’architettura di un prototipo utilizzato per svolgere attività di validazione con 9 partecipanti. Sebbene saranno necessarie ulteriori indagini per confermare pienamente la validità del nuovo paradigma, i risultati mostrano percezioni positive da parte degli utenti riguardo all’usabilità, al carico di lavoro e all’accettazione della tecnologia. Dall’analisi tematica dei feedback qualitativi dei partecipanti sono emerse anche riflessioni critiche. Nel complesso, le attività si sono rivelate efficaci nell’individuare bisogni ed aspettative autentiche degli utenti, fornendo indicazioni utili per i futuri sviluppi e le prossime iterazioni del design.

Voice-based direct manipulation in intent-driven user interfaces

Colazzo, Laura
2024/2025

Abstract

Recent advancements in Generative AI have contributed to the emergence of a new interaction paradigm centered on intent formulation. Despite the exceptional popularity Large Language Models (LLM) have recently gained and the unprecedented opportunities they have unlocked, ensuring the user intent is accurately captured by the model, from a prompt expressed in natural language, remains challenging, especially when prompt refinements must be applied iteratively. Usability problems are even more critical when situational or permanent disabilities demand voice-based interaction. Despite the effort directed toward improving usability in LLM Graphical User Interfaces (GUI), it remains unclear whether analogous results can be achieved in voice-only interfaces. Given the key role Voice-based User Interfaces (VUI) play in accessibility, ensuring their usability is fundamental. Inspired by emerging interaction techniques based on direct manipulation principles proposed for LLM GUIs, and informed by a prior user study with Blind and Visually Impaired (BVI) individuals whose findings revealed new design opportunities in voice-based human-LLM interactions, this thesis investigates whether direct manipulation principles can inspire the definition of new vocal interaction patterns. To prove the feasibility of the proposed vocal interaction paradigm, the thesis introduces the architecture of a prototype used to conduct validation activities with 9 participants. Although further investigation will be required to fully prove the validity of the new paradigm, the findings revealed positive self-reported perceptions concerning usability, workload, and technology acceptance. Critical reflections also emerged from the thematic analysis of participants' qualitative feedback. Overall, these activities were successful in eliciting genuine user needs and expectations, informing future work and the next design iterations.
ING - Scuola di Ingegneria Industriale e dell'Informazione
22-lug-2025
2024/2025
I recenti progressi nell’ambito dell’Intelligenza Artificiale Generativa hanno contribuito all’emergere di un nuovo paradigma di interazione centrato sulla formulazione dell’intento. Nonostante l’eccezionale popolarità recentemente acquisita dai Large Language Models (LLMs) e le opportunità senza precedenti che hanno aperto, garantire una corretta comprensione dell’intento dell’utente da parte del modello, partendo da un prompt espresso in linguaggio naturale, rimane una sfida, soprattutto quando il prompt va raffinato iterativamente. I problemi di usabilità risultano ancora più critici quando disabilità, permanenti o situazionali, rendono necessaria l’interazione vocale. Nonostante gli sforzi volti a migliorare l’usabilità delle interfacce grafiche (GUI) per LLM, non è ancora chiaro se risultati analoghi possano essere ottenuti anche in interfacce esclusivamente vocali. Considerato il ruolo chiave che le interfacce vocali (VUI) ricoprono in termini di accessibilità, garantirne l’usabilità risulta fondamentale. Ispirata dalle tecniche di interazione emergenti basate sui principi della manipolazione diretta, proposte per le GUI degli LLM, e supportata da un precedente studio condotto con persone cieche o ipovedenti, i cui risultati hanno evidenziato nuove opportunità nel design dell’interazione vocale con gli LLM, questa tesi si propone di indagare se tali principi possano ispirare la definizione di nuovi pattern di interazione vocale. Per dimostrare la fattibilità del paradigma proposto, viene presentata l’architettura di un prototipo utilizzato per svolgere attività di validazione con 9 partecipanti. Sebbene saranno necessarie ulteriori indagini per confermare pienamente la validità del nuovo paradigma, i risultati mostrano percezioni positive da parte degli utenti riguardo all’usabilità, al carico di lavoro e all’accettazione della tecnologia. Dall’analisi tematica dei feedback qualitativi dei partecipanti sono emerse anche riflessioni critiche. Nel complesso, le attività si sono rivelate efficaci nell’individuare bisogni ed aspettative autentiche degli utenti, fornendo indicazioni utili per i futuri sviluppi e le prossime iterazioni del design.
File allegati
File Dimensione Formato  
2025_07_Colazzo_Tesi.pdf

accessibile in internet per tutti

Descrizione: Testo tesi
Dimensione 10.13 MB
Formato Adobe PDF
10.13 MB Adobe PDF Visualizza/Apri
2025_07_Colazzo_Executive Summary.pdf

accessibile in internet per tutti

Descrizione: Testo executive summary
Dimensione 2.4 MB
Formato Adobe PDF
2.4 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/240688