Sign language is the primary means of communication for over 70 million deaf people worldwide, yet significant barriers persist in facilitating communication between deaf and hearing communities. This thesis addresses the challenge of automatic sign language translation by developing a pipeline that converts continuous American Sign Language (ASL) videos into natural language sentences. The proposed approach combines isolated sign classification, temporal segmentation via a sliding window technique, and LLM sentence reconstruction. The system employs MediaPipe Holistic for pose estimation, extracting 3D keypoints from hands, body, and face, followed by preprocessing steps including interpolation, normalization, and data augmentation. A 1D convolutional neural network architecture was developed and trained on combined ASL-Citizen and WLASL datasets, achieving up to 73% top-1 accuracy on isolated sign classification. The trained classifier was then applied to continuous signing videos from How2Sign and YouTube-ASL datasets using a sliding-window approach with confidence filtering. Finally, an LLM model was employed to reconstruct grammatically correct sentences from the detected token sequences. Extensive experiments were conducted across different vocabulary sizes (100, 500, and full vocabularies), dataset combinations, and architectural configurations. The results demonstrate that the proposed pipeline can translate continuous ASL videos into natural language sentences, validating the overall approach.

La lingua dei segni è il principale mezzo di comunicazione per oltre 70 milioni di persone sorde in tutto il mondo, ma persistono ancora barriere significative nella comunicazione tra le comunità sorde e udenti. Questa tesi affronta la sfida della traduzione automatica della lingua dei segni sviluppando una pipeline che converte video continui della Lingua dei Segni Americana (ASL) in frasi in linguaggio naturale. L'approccio proposto combina la classificazione di segni isolati, la segmentazione temporale tramite una tecnica di finestra scorrevole e la ricostruzione delle frasi mediante un modello di linguaggio di grandi dimensioni (LLM). Il sistema utilizza MediaPipe Holistic per la stima della posa, estraendo keypoint 3D di mani, corpo e viso, seguiti da passaggi di pre–processing che includono interpolazione, normalizzazione e data augmentation. È stata sviluppata un'architettura di rete neurale convoluzionale 1D, addestrata sui dataset ASL-Citizen e WLASL, ottenendo fino al 73% di accuratezza top-1 nella classificazione di segni isolati. Il classificatore addestrato è stato poi applicato a video di segni continui provenienti dai dataset How2Sign e YouTube-ASL, utilizzando un approccio a finestra scorrevole con filtraggio basato sulla confidenza. Infine, un modello LLM è stato impiegato per ricostruire frasi grammaticalmente corrette a partire dalle sequenze di token rilevate. Sono stati condotti esperimenti approfonditi su diverse dimensioni di vocabolario (100, 500 e completo), combinazioni di dataset e configurazioni architetturali. I risultati dimostrano che la pipeline proposta traduce efficacemente i video continui in ASL in frasi coerenti e significative, convalidando l’approccio complessivo.

Sign language translation: sentence reconstruction from isolated token detection

REMOLINA GUTIERREZ, ANGELA SOFIA
2024/2025

Abstract

Sign language is the primary means of communication for over 70 million deaf people worldwide, yet significant barriers persist in facilitating communication between deaf and hearing communities. This thesis addresses the challenge of automatic sign language translation by developing a pipeline that converts continuous American Sign Language (ASL) videos into natural language sentences. The proposed approach combines isolated sign classification, temporal segmentation via a sliding window technique, and LLM sentence reconstruction. The system employs MediaPipe Holistic for pose estimation, extracting 3D keypoints from hands, body, and face, followed by preprocessing steps including interpolation, normalization, and data augmentation. A 1D convolutional neural network architecture was developed and trained on combined ASL-Citizen and WLASL datasets, achieving up to 73% top-1 accuracy on isolated sign classification. The trained classifier was then applied to continuous signing videos from How2Sign and YouTube-ASL datasets using a sliding-window approach with confidence filtering. Finally, an LLM model was employed to reconstruct grammatically correct sentences from the detected token sequences. Extensive experiments were conducted across different vocabulary sizes (100, 500, and full vocabularies), dataset combinations, and architectural configurations. The results demonstrate that the proposed pipeline can translate continuous ASL videos into natural language sentences, validating the overall approach.
ING - Scuola di Ingegneria Industriale e dell'Informazione
10-dic-2025
2024/2025
La lingua dei segni è il principale mezzo di comunicazione per oltre 70 milioni di persone sorde in tutto il mondo, ma persistono ancora barriere significative nella comunicazione tra le comunità sorde e udenti. Questa tesi affronta la sfida della traduzione automatica della lingua dei segni sviluppando una pipeline che converte video continui della Lingua dei Segni Americana (ASL) in frasi in linguaggio naturale. L'approccio proposto combina la classificazione di segni isolati, la segmentazione temporale tramite una tecnica di finestra scorrevole e la ricostruzione delle frasi mediante un modello di linguaggio di grandi dimensioni (LLM). Il sistema utilizza MediaPipe Holistic per la stima della posa, estraendo keypoint 3D di mani, corpo e viso, seguiti da passaggi di pre–processing che includono interpolazione, normalizzazione e data augmentation. È stata sviluppata un'architettura di rete neurale convoluzionale 1D, addestrata sui dataset ASL-Citizen e WLASL, ottenendo fino al 73% di accuratezza top-1 nella classificazione di segni isolati. Il classificatore addestrato è stato poi applicato a video di segni continui provenienti dai dataset How2Sign e YouTube-ASL, utilizzando un approccio a finestra scorrevole con filtraggio basato sulla confidenza. Infine, un modello LLM è stato impiegato per ricostruire frasi grammaticalmente corrette a partire dalle sequenze di token rilevate. Sono stati condotti esperimenti approfonditi su diverse dimensioni di vocabolario (100, 500 e completo), combinazioni di dataset e configurazioni architetturali. I risultati dimostrano che la pipeline proposta traduce efficacemente i video continui in ASL in frasi coerenti e significative, convalidando l’approccio complessivo.
File allegati
File Dimensione Formato  
2024_12_Remolina_Thesis.pdf

accessibile in internet per tutti

Descrizione: Text of the thesis
Dimensione 7.02 MB
Formato Adobe PDF
7.02 MB Adobe PDF Visualizza/Apri
2024_12_Remolina_Executive_Summary.pdf

accessibile in internet per tutti

Descrizione: Executive Summary
Dimensione 605.19 kB
Formato Adobe PDF
605.19 kB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/246196