Speech serves as a natural and widespread mode of communication among humans, as well as a proficient modality when hands are occupied or when supplementary visual information is accessible. The seamless interaction facilitated by spoken language has not only encouraged research in the field but has also influenced product development, particularly within the healthcare sector. The aim of this project consists in optimizing the interface of MacroPATHOX , a photographic system used by ® clinicians in pathological anatomy laboratories to visualize, process and store anatomical samples’ slides. Currently, the camera can be controlled either via a touch screen monitor or pushing some dedicated pedals; however the pedal board is deemed to be quite uncomfortable for the users, and this leads to the preferential usage of the touch screen to convey commands to the camera. Unfortunately, this is not an optimal solution since keeping a completely uncontaminated environment inside the laminar flow hoods must be a priority to guarantee a proper analysis procedure. The proposed solution involves the development of a Voice User Interface able to acquire voice commands, perform an offline speech and intent recognition and consequently operate the camera. Each element constituting the voice-activated system, from the microphone needed to record the audio signals to the Voice Activity Detection engines used to discriminate speech and non-speech segments together with the model performing command identification, has been meticulously selected among diverse alternatives. The final solution exploits an ambient microphone, allowing for a strategic placement within the workstation and an user-friendly operation without the need for precise voice direction. Speech detection has been implemented by a two- phase mechanism combining the use of multiple Voice Activity Detection engines (WebRTC, SpeechBrain and PicoVoice Cobra VAD) and command identification is performed by a computer vision solution consisting in a convolutional neural network designed from scratch taking in input mel-spectrograms of the identified speech signals. This interface renovation not only addresses the clinical need but also ensures practicality and privacy, fostering a more intuitive and user-friendly experience with the MacroPATHOX® camera.

Il linguaggio parlato rappresenta un mezzo di comunicazione naturale e diffuso tra gli esseri umani, nonché una modalità efficiente quando le mani sono occupate o quando è disponibile informazione visiva supplementare. L'interazione continua facilitata dal linguaggio parlato non ha solo incoraggiato la ricerca nel settore, ma ha anche influenzato lo sviluppo di prodotti, in particolare nel settore sanitario. L'obiettivo di questo progetto mira ad ottimizzare l'interfaccia di MacroPATHOX®, un sistema fotografico utilizzato dai clinici nei laboratori di anatomia patologica per visualizzare, elaborare e archiviare vetrini di campioni anatomici. Attualmente, la fotocamera può essere controllata tramite un monitor touchscreen o premendo alcuni pedali dedicati; tuttavia, la pedaliera è considerata abbastanza scomoda per gli utenti, e ciò porta all'uso preferenziale dello schermo touchscreen per impartire comandi alla fotocamera. Purtroppo, però, questa non rappresenta una soluzione ottimale, poiché mantenere un ambiente completamente incontaminato all'interno delle cappe a flusso laminare deve essere una priorità per garantire una corretta procedura di analisi. La soluzione proposta consiste in un'interfaccia utente in grado di: acquisire comandi vocali, eseguire un riconoscimento offline del parlato e dell’ intento in esso contenuto e quindi di azionare di conseguenza la fotocamera. Ogni elemento costituente il sistema attivato vocalmente, dal microfono per acquisire il segnale audio ai sistemi di rilevamento dell'attività vocale utilizzati per discriminare i segmenti di parlato e non parlato fino ad arrivare al modello che esegue l'identificazione del comando, è stato accuratamente selezionato tra diverse alternative. La soluzione finale utilizza un microfono ambientale, che consente un posizionamento strategico all'interno della postazione di lavoro e un utilizzo user-friendly senza la necessità di un preciso direzionamento vocale. La rilevazione del linguaggio parlato è stata implementata mediante un meccanismo a due fasi che combina l'uso di diversi sistemi di rilevamento dell'attività vocale (WebRTC, SpeechBrain e PicoVoice Cobra VAD) e l'identificazione dei comandi è eseguita mediante una soluzione di computer vision costituita da una rete neurale convoluzionale progettata da zero che riceve in input mel-spettrogrammi dei segnali vocali identificati. Questo rinnovamento dell'interfaccia non solo ha affrontato la necessità clinica, ma ha anche garantito praticità e privacy, promuovendo un'esperienza più intuitiva e user-friendly con la fotocamera MacroPATHOX®.

Voice-activated command recognition for MacroPATHOX: enhancing efficiency in pathological anatomy laboratories

Ferretti, Meri
2022/2023

Abstract

Speech serves as a natural and widespread mode of communication among humans, as well as a proficient modality when hands are occupied or when supplementary visual information is accessible. The seamless interaction facilitated by spoken language has not only encouraged research in the field but has also influenced product development, particularly within the healthcare sector. The aim of this project consists in optimizing the interface of MacroPATHOX , a photographic system used by ® clinicians in pathological anatomy laboratories to visualize, process and store anatomical samples’ slides. Currently, the camera can be controlled either via a touch screen monitor or pushing some dedicated pedals; however the pedal board is deemed to be quite uncomfortable for the users, and this leads to the preferential usage of the touch screen to convey commands to the camera. Unfortunately, this is not an optimal solution since keeping a completely uncontaminated environment inside the laminar flow hoods must be a priority to guarantee a proper analysis procedure. The proposed solution involves the development of a Voice User Interface able to acquire voice commands, perform an offline speech and intent recognition and consequently operate the camera. Each element constituting the voice-activated system, from the microphone needed to record the audio signals to the Voice Activity Detection engines used to discriminate speech and non-speech segments together with the model performing command identification, has been meticulously selected among diverse alternatives. The final solution exploits an ambient microphone, allowing for a strategic placement within the workstation and an user-friendly operation without the need for precise voice direction. Speech detection has been implemented by a two- phase mechanism combining the use of multiple Voice Activity Detection engines (WebRTC, SpeechBrain and PicoVoice Cobra VAD) and command identification is performed by a computer vision solution consisting in a convolutional neural network designed from scratch taking in input mel-spectrograms of the identified speech signals. This interface renovation not only addresses the clinical need but also ensures practicality and privacy, fostering a more intuitive and user-friendly experience with the MacroPATHOX® camera.
ING - Scuola di Ingegneria Industriale e dell'Informazione
19-dic-2023
2022/2023
Il linguaggio parlato rappresenta un mezzo di comunicazione naturale e diffuso tra gli esseri umani, nonché una modalità efficiente quando le mani sono occupate o quando è disponibile informazione visiva supplementare. L'interazione continua facilitata dal linguaggio parlato non ha solo incoraggiato la ricerca nel settore, ma ha anche influenzato lo sviluppo di prodotti, in particolare nel settore sanitario. L'obiettivo di questo progetto mira ad ottimizzare l'interfaccia di MacroPATHOX®, un sistema fotografico utilizzato dai clinici nei laboratori di anatomia patologica per visualizzare, elaborare e archiviare vetrini di campioni anatomici. Attualmente, la fotocamera può essere controllata tramite un monitor touchscreen o premendo alcuni pedali dedicati; tuttavia, la pedaliera è considerata abbastanza scomoda per gli utenti, e ciò porta all'uso preferenziale dello schermo touchscreen per impartire comandi alla fotocamera. Purtroppo, però, questa non rappresenta una soluzione ottimale, poiché mantenere un ambiente completamente incontaminato all'interno delle cappe a flusso laminare deve essere una priorità per garantire una corretta procedura di analisi. La soluzione proposta consiste in un'interfaccia utente in grado di: acquisire comandi vocali, eseguire un riconoscimento offline del parlato e dell’ intento in esso contenuto e quindi di azionare di conseguenza la fotocamera. Ogni elemento costituente il sistema attivato vocalmente, dal microfono per acquisire il segnale audio ai sistemi di rilevamento dell'attività vocale utilizzati per discriminare i segmenti di parlato e non parlato fino ad arrivare al modello che esegue l'identificazione del comando, è stato accuratamente selezionato tra diverse alternative. La soluzione finale utilizza un microfono ambientale, che consente un posizionamento strategico all'interno della postazione di lavoro e un utilizzo user-friendly senza la necessità di un preciso direzionamento vocale. La rilevazione del linguaggio parlato è stata implementata mediante un meccanismo a due fasi che combina l'uso di diversi sistemi di rilevamento dell'attività vocale (WebRTC, SpeechBrain e PicoVoice Cobra VAD) e l'identificazione dei comandi è eseguita mediante una soluzione di computer vision costituita da una rete neurale convoluzionale progettata da zero che riceve in input mel-spettrogrammi dei segnali vocali identificati. Questo rinnovamento dell'interfaccia non solo ha affrontato la necessità clinica, ma ha anche garantito praticità e privacy, promuovendo un'esperienza più intuitiva e user-friendly con la fotocamera MacroPATHOX®.
File allegati
File Dimensione Formato  
Thesis.pdf

accessibile in internet per tutti a partire dal 22/11/2024

Dimensione 12.08 MB
Formato Adobe PDF
12.08 MB Adobe PDF   Visualizza/Apri
Executive Summary.pdf

accessibile in internet per tutti a partire dal 28/11/2024

Dimensione 1.45 MB
Formato Adobe PDF
1.45 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/214416