This thesis explores the development of symbols using generative artificial intelligence for Augmentative and Alternative Communication (AAC), an area of research and practice aimed at improving and using communication techniques for individuals with special needs. Symbol generation is a process that requires optimization in terms of flexibility, accessibility, and cost-effectiveness. Our goal was to develop a model that is affordable, accessible, and open-source. We developed and compared two generative models: a Variational AutoEncoder (VAE) and a pre-trained Stable Diffusion model, customized through fine-tuning. The VAE was designed to learn compressed data representations and generate new images from these representations. At the same time, Stable Diffusion was retrained using ARASAAC symbols, which are recognized and specifically created for AAC. The final comparison revealed that the customization of Stable Diffusion produces symbols of superior quality and representation. This model has the potential to become a revolutionary tool in the field of AAC, as it can offer custom symbol generation tailored to each user's specific communication needs. The VAE model created presents promising avenues. Since it is a scalable and open-source solution, it can be further improved and refined with additional resources. It offers a unique system that teachers and educators can use as a tool for creating content for individuals with special communication needs.
Questa tesi esplora lo sviluppo di simboli tramite l’intelligenza artificiale generativa per la comunicazione aumentativa alternativa (CCA), un’area di ricerca e pratiche atte al miglioramento e l’utilizzo di tecniche comunicative utili a persone con necessità particolari. La generazione di simboli è un processo che necessita di ottimizzazioni in termini di flessibilità, accessibilità ed economicità. L’obiettivo che ci siamo finalizzati è stato quello di sviluppare un modello che fosse economico, accessibile e open-source in modo da permettere agli educatori di poter creare più materiale in meno tempo. Abbiamo sviluppato e confrontato due modelli generativi: un Variational AutoEncoder (VAE) e un modello pre-addestrato di Stable Diffusion, personalizzato tramite fine-tuning. Il modello VAE è stato generato per apprendere rappresentazioni compresse dei dati e generare nuove immagini da tali rappresentazioni, mentre Stable Diffusion è stato riaddestrato utilizzando simboli di ARASAAC, simboli riconosciuti e creati appositamente per la CAA. Il confronto finale ha portato a riconoscere che la personalizzazione di Stable Diffusion genera simboli con qualità e rappresentazione superiore. L’utilizzo di questo modello potrebbe in futuro essere uno strumento rivoluzionario nel mondo della CAA in quanto può offrire la generazione di simboli personalizzati per ogni richiesta comunicativa specifica degli utenti. Il modello VAE creato offre comunque spunti promettenti, essendo un modello scalabile e open-source, che può essere migliorato e approfondito con risorse maggiori offrendo un sistema che può essere utilizzato come ausilio da insegnanti ed educatori durante la creazione di contenuto per persone con bisogni comunicativi speciali.
Comparative analysis of image generation models for symbol generation in augmentative and alternative communication
CAIRONI, NICOLÒ
2023/2024
Abstract
This thesis explores the development of symbols using generative artificial intelligence for Augmentative and Alternative Communication (AAC), an area of research and practice aimed at improving and using communication techniques for individuals with special needs. Symbol generation is a process that requires optimization in terms of flexibility, accessibility, and cost-effectiveness. Our goal was to develop a model that is affordable, accessible, and open-source. We developed and compared two generative models: a Variational AutoEncoder (VAE) and a pre-trained Stable Diffusion model, customized through fine-tuning. The VAE was designed to learn compressed data representations and generate new images from these representations. At the same time, Stable Diffusion was retrained using ARASAAC symbols, which are recognized and specifically created for AAC. The final comparison revealed that the customization of Stable Diffusion produces symbols of superior quality and representation. This model has the potential to become a revolutionary tool in the field of AAC, as it can offer custom symbol generation tailored to each user's specific communication needs. The VAE model created presents promising avenues. Since it is a scalable and open-source solution, it can be further improved and refined with additional resources. It offers a unique system that teachers and educators can use as a tool for creating content for individuals with special communication needs.File | Dimensione | Formato | |
---|---|---|---|
2024_10_Caironi.pdf
accessibile in internet per tutti
Descrizione: Testo della tesi
Dimensione
9.39 MB
Formato
Adobe PDF
|
9.39 MB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/227942