Communication between deaf and hearing individuals necessitates innovative solutions to overcome the existing barrier of language differences and to foster inclusivity. By leveraging recent technological advancements and cutting-edge deep learning techniques, this study aims to bridge this communication gap specifically for Italian Sign Language (LIS), an area that has been relatively underexplored. First, an interview was conducted targeting both deaf individuals and those proficient in sign language among the hearing and deaf population to gain insights into the communication methods, possible pitfalls, accepted technology and constraints. The analysis indicates that developing an application to assist individuals in acquiring proficiency in LIS vocabulary would be the most effective solution. Therefore, LIStudio is proposed, an application designed to aid users in learning the vocabulary of LIS by enabling users to access video representations of signs and practice the signs themselves. To this end, two video understanding models were trained, Inception3D and Slowfast, to classify Italian signs. Both experiments utilized the A3LIS-147 dataset, encompassing 147 Italian sign language signs for both training and evaluation purposes. Among the two models, the Inception3D model proved to be the most effective as it achieved an accuracy of 80.4% on the complete dataset, and 82.5% on a subset of 40 signs, which included the most relevant words in the train station context. In comparison, the Slowfast model achieved accuracies of 77.03% on the complete dataset and 85% on the subset related to train station interactions. In conclusion, the new proposal LIStudio application presents an effective solution to address communication challenges, empowering hearing individuals to engage more directly with LIS.

La comunicazione tra individui sordi e udenti richiede soluzioni innovative per superare la barriera esistente delle differenze linguistiche e favorire l’inclusività. Sfruttando i recenti progressi tecnologici e le tecniche all’avanguardia di computer vision, questo studio mira a colmare questo divario comunicativo per la Lingua Italiana dei Segni (LIS), un’area che è stata relativamente poco esplorata. Per prima cosa, è stata condotta una fase di ricerca utente mirata sia a individui sordi che a persone competenti nella lingua dei segni tra la popolazione udente e sorda, al fine di ottenere informazioni sui metodi di comunicazione, possibili insidie, tecnologie accettate e vincoli. L’analisi indica che sviluppare un’applicazione per assistere gli individui nell’acquisire competenze nel vocabolario della LIS sarebbe la soluzione più efficace. Da ciò, è stata proposta LIStudio, un’applicazione pensata per aiutare gli utenti nell’apprendimento del vocabolario della LIS consentendo loro di accedere a rappresentazioni video dei segni e di praticare i segni stessi. A tal fine, sono stati addestrati due modelli di riconoscimento dei video, l’Inception3D e lo Slowfast, per classificare i segni italiani. Gli esperimenti hanno utilizzato il dataset A3LIS-147, che comprende 147 segni della lingua dei segni italiana per l’addestramento e la valutazione. Tra i due modelli, l’Inception3D si è dimostrato il più efficace poiché ha raggiunto un’accuratezza dell’80,4% sull’intero dataset e dell’82,5% su un sottoinsieme di 40 segni, che includevano le parole più rilevanti nel contesto della stazione ferroviaria. In confronto, lo Slowfast ha raggiunto le accuratezze rispettivamente del 77,03% sull’intero dataset e dell’85% sul sottoinsieme precedentemente citato. In conclusione, la proposta di applicazione LIStudio presenta una soluzione efficace per affrontare le sfide della comunicazione, facilitando gli individui udenti nell’apprendimento più diretto della LIS.

"LIStudio": Modelli di Computer Vision per lo studio della Lingua Italiana dei Segni

MARIN VARGAS, FRANCESCO
2023/2024

Abstract

Communication between deaf and hearing individuals necessitates innovative solutions to overcome the existing barrier of language differences and to foster inclusivity. By leveraging recent technological advancements and cutting-edge deep learning techniques, this study aims to bridge this communication gap specifically for Italian Sign Language (LIS), an area that has been relatively underexplored. First, an interview was conducted targeting both deaf individuals and those proficient in sign language among the hearing and deaf population to gain insights into the communication methods, possible pitfalls, accepted technology and constraints. The analysis indicates that developing an application to assist individuals in acquiring proficiency in LIS vocabulary would be the most effective solution. Therefore, LIStudio is proposed, an application designed to aid users in learning the vocabulary of LIS by enabling users to access video representations of signs and practice the signs themselves. To this end, two video understanding models were trained, Inception3D and Slowfast, to classify Italian signs. Both experiments utilized the A3LIS-147 dataset, encompassing 147 Italian sign language signs for both training and evaluation purposes. Among the two models, the Inception3D model proved to be the most effective as it achieved an accuracy of 80.4% on the complete dataset, and 82.5% on a subset of 40 signs, which included the most relevant words in the train station context. In comparison, the Slowfast model achieved accuracies of 77.03% on the complete dataset and 85% on the subset related to train station interactions. In conclusion, the new proposal LIStudio application presents an effective solution to address communication challenges, empowering hearing individuals to engage more directly with LIS.
PIRO, LUDOVICA
URBANI, PAOLA
ING - Scuola di Ingegneria Industriale e dell'Informazione
16-lug-2024
2023/2024
La comunicazione tra individui sordi e udenti richiede soluzioni innovative per superare la barriera esistente delle differenze linguistiche e favorire l’inclusività. Sfruttando i recenti progressi tecnologici e le tecniche all’avanguardia di computer vision, questo studio mira a colmare questo divario comunicativo per la Lingua Italiana dei Segni (LIS), un’area che è stata relativamente poco esplorata. Per prima cosa, è stata condotta una fase di ricerca utente mirata sia a individui sordi che a persone competenti nella lingua dei segni tra la popolazione udente e sorda, al fine di ottenere informazioni sui metodi di comunicazione, possibili insidie, tecnologie accettate e vincoli. L’analisi indica che sviluppare un’applicazione per assistere gli individui nell’acquisire competenze nel vocabolario della LIS sarebbe la soluzione più efficace. Da ciò, è stata proposta LIStudio, un’applicazione pensata per aiutare gli utenti nell’apprendimento del vocabolario della LIS consentendo loro di accedere a rappresentazioni video dei segni e di praticare i segni stessi. A tal fine, sono stati addestrati due modelli di riconoscimento dei video, l’Inception3D e lo Slowfast, per classificare i segni italiani. Gli esperimenti hanno utilizzato il dataset A3LIS-147, che comprende 147 segni della lingua dei segni italiana per l’addestramento e la valutazione. Tra i due modelli, l’Inception3D si è dimostrato il più efficace poiché ha raggiunto un’accuratezza dell’80,4% sull’intero dataset e dell’82,5% su un sottoinsieme di 40 segni, che includevano le parole più rilevanti nel contesto della stazione ferroviaria. In confronto, lo Slowfast ha raggiunto le accuratezze rispettivamente del 77,03% sull’intero dataset e dell’85% sul sottoinsieme precedentemente citato. In conclusione, la proposta di applicazione LIStudio presenta una soluzione efficace per affrontare le sfide della comunicazione, facilitando gli individui udenti nell’apprendimento più diretto della LIS.
File allegati
File Dimensione Formato  
2024_07_MarinVargas_Tesi.pdf

accessibile in internet per tutti

Descrizione: Testo della tesi
Dimensione 8.11 MB
Formato Adobe PDF
8.11 MB Adobe PDF Visualizza/Apri
2024_07_MarinVargas_Executive Summary.pdf

accessibile in internet per tutti

Descrizione: Executive Summary
Dimensione 1.76 MB
Formato Adobe PDF
1.76 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/222479