While natural language understanding tasks over aerial conduction microphone (AC) speech signals have been extensively studied, little attention has been given to the potential use of bone conduction microphones (BC), which provide more resilient to noise, yet smaller signal bandwidth. This work analyses the use of BC for intent classification. First, a BC dataset is collected and labelled following a custom protocol; then, an existing neural network model trained on AC data is adapted to perform BC intent recognition. Experimental results show increased performance with fine-tuning and training of the pre-trained neural network, strongly suggesting BC can be used for natural language understanding tasks; issues with generalisation to new phrasings of intents in the training set still suggest room for further improvement, and several promising directions for future work are listed. Overall, the main contributions of this work are the introduction of the privately-held bone conduction speech dataset - the first in English and the first for intent classification to the author's best knowledge; the feasibility proof of the use of BC for high level language understanding tasks despite low signal bandwidth; and the documentation of several promising directions for future development.

Mentre l'elaborazione del linguaggio naturale su microfoni a conduzione aerea (AC dall'acronimo inglese "Aerial Conduction") è stata abbondantemente studiata, l'utilizzo potenziale della conduzione ossea (BC dall'acronimo inglese "Bone Conduction"), più resistente ai rumori ambientali anche se con larghezza di banda inferiore, ha avuto poca attenzione. Questa tesi analizza l'utilizzo della BC per la classificazione di comandi vocali ("intent recognition"). Un dataset BC è stato raccolto ed etichettato seguendo un nuovo protocollo; una rete neurale originariamente pre-addestrata con dati AC è stata successivamente adattata per classificare comandi vocali BC. I risultati degli esperimenti mostrano un aumento nella performance dopo fine-tuning e addestramento della rete neurale pre-addestrata, suggerendo fortemente che la BC può essere utilizzata per l'elaborazione del linguaggio naturale; lacune sulla capacità di generalizzazione a nuove frasi per gli stessi comandi vocali nel dataset di addestramento però indicano margini di miglioramento, e diverse linee per lavori futuri sono elencate. Nel complesso, i principali contributi di questa tesi sono l'introduzione di un dataset privato di conduzione ossea - il primo in inglese e il primo per classificazione di comandi vocali a conoscenza dell'autore; una prova di fattibilità dell'utilizzo della BC per problemi di elaborazione del linguaggio naturale a dispetto di segnali di banda ridotta; e la documentazione di diverse direzioni promettenti per lavori futuri.

Towards intent recognition from bone conduction speech signals

Maia Suller, Tomaz
2025/2026

Abstract

While natural language understanding tasks over aerial conduction microphone (AC) speech signals have been extensively studied, little attention has been given to the potential use of bone conduction microphones (BC), which provide more resilient to noise, yet smaller signal bandwidth. This work analyses the use of BC for intent classification. First, a BC dataset is collected and labelled following a custom protocol; then, an existing neural network model trained on AC data is adapted to perform BC intent recognition. Experimental results show increased performance with fine-tuning and training of the pre-trained neural network, strongly suggesting BC can be used for natural language understanding tasks; issues with generalisation to new phrasings of intents in the training set still suggest room for further improvement, and several promising directions for future work are listed. Overall, the main contributions of this work are the introduction of the privately-held bone conduction speech dataset - the first in English and the first for intent classification to the author's best knowledge; the feasibility proof of the use of BC for high level language understanding tasks despite low signal bandwidth; and the documentation of several promising directions for future development.
ING - Scuola di Ingegneria Industriale e dell'Informazione
26-mar-2026
2025/2026
Mentre l'elaborazione del linguaggio naturale su microfoni a conduzione aerea (AC dall'acronimo inglese "Aerial Conduction") è stata abbondantemente studiata, l'utilizzo potenziale della conduzione ossea (BC dall'acronimo inglese "Bone Conduction"), più resistente ai rumori ambientali anche se con larghezza di banda inferiore, ha avuto poca attenzione. Questa tesi analizza l'utilizzo della BC per la classificazione di comandi vocali ("intent recognition"). Un dataset BC è stato raccolto ed etichettato seguendo un nuovo protocollo; una rete neurale originariamente pre-addestrata con dati AC è stata successivamente adattata per classificare comandi vocali BC. I risultati degli esperimenti mostrano un aumento nella performance dopo fine-tuning e addestramento della rete neurale pre-addestrata, suggerendo fortemente che la BC può essere utilizzata per l'elaborazione del linguaggio naturale; lacune sulla capacità di generalizzazione a nuove frasi per gli stessi comandi vocali nel dataset di addestramento però indicano margini di miglioramento, e diverse linee per lavori futuri sono elencate. Nel complesso, i principali contributi di questa tesi sono l'introduzione di un dataset privato di conduzione ossea - il primo in inglese e il primo per classificazione di comandi vocali a conoscenza dell'autore; una prova di fattibilità dell'utilizzo della BC per problemi di elaborazione del linguaggio naturale a dispetto di segnali di banda ridotta; e la documentazione di diverse direzioni promettenti per lavori futuri.
File allegati
File Dimensione Formato  
2026_03_MaiaSuller_Tesi.pdf

accessibile in internet per tutti

Descrizione: Tesi (Thesis)
Dimensione 14.79 MB
Formato Adobe PDF
14.79 MB Adobe PDF Visualizza/Apri
2026_03_MaiaSuller_Executive Summary.pdf

accessibile in internet per tutti

Descrizione: Executive Summary
Dimensione 6 MB
Formato Adobe PDF
6 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/252747