The ageing of world's population will raise the demand and challenges of elderly care in coming years. Several approaches have been devised to deal with the needs of older people proactively. Assistive domotics represents a relatively recent effort in this direction; in particular, Vocal Interaction can be a favored way to control the smart home environment, providing that the interface fulfills requirements of transparency and unobtrusiveness. Absence of intrusive devices induces a more natural interaction model in which there is no need to wear a microphone or to issue commands to specific "hotspots" of the dwelling. From these assumptions, a wireless, modular and low-cost speech capturing system has been implemented, in which a set of wireless audio sensors send captured data to a Base Station, which in turn is responsible for aggregating received data in order to rebuild the speech captured distributely by BigEar Audio Sensors. The reconstruction algorithm performs a first stage of energy and delay analysis of the audio streams coming from the sensors; this stage is needed for compensating energy and delay differences due to different source-sensors distances. Then, the streams are superposed in order to merge each contribution into a unique output stream. Each sensor generates an audio stream that, depending on network interaction model, will be not complete, presenting thus sequences of silence (holes). Holes in the reconstructed signal drastically decrease the accuracy of the speech recognition procedure. Although BigEar system, working with the best network parameters, ensures high chances for a successful speech recognition, four different methods have been used to repair the audio signal before sending it to the speech recognition block. BigEar architecture has been simulated by means of a MATLAB-based simulator that allows to study the whole system behavior, from the environment (room) acoustic simulation up to Network Interaction protocol. Once best parameters are pointed out by the simulation, a real-world prototype has been realized. From Results Analysis it can be seen that BigEar can be identified as a minimum cost, wireless and distributed system. Moreover, ubiquitous approach allows Data Intelligence mechanisms, e.g. performing a coarse-grain localization - using sensor signal power and delays information - in order to add informative content that could disambiguate context-free vocal commands ("Turn off the light" or - better - "Turn off this light" could be integrated with localization information in order to determine which light has to be switched off).

L'invecchiamento della popolazione mondiale nei prossimi anni causerà l'accrescimento della domanda e le relative sfide nella cura degli anziani. Sono stati studiati numerosi approcci per far fronte alle esigenze delle persone meno giovani. La domotica assistiva rappresenta un passo - seppur relativamente recente - in questa direzione; in particolare, l'interazione vocale può essere una via preferenziale per controllare l'ambiente domestico gestito dalla domotica, a patto che l'interfaccia uomo-macchina soddisfi requisiti di trasparenza e non-intrusività. L'assenza di dispositivi invasivi induce a una interazione più naturale in cui non sia necessario indossare un microfono o impartire comandi attraverso specifici punti di ascolto dell'abitazione. A partire da queste premesse è stato implementato un sistema modulare, senza fili e a basso costo di cattura del parlato in cui un insieme di sensori audio invia i dati acquisiti a una Base Station, la quale provvede ad assemblare i dati ricevuti in modo da ricostruire il parlato precedentemente acquisito, in modo distribuito, dai sensori. L'algoritmo di ricostruzione esegue anzitutto l'analisi energetica e dei ritardi dei flussi audio; questa operazione è necessaria alla compensazione delle differenze energetiche e dei ritardi dovuti alle distanze tra i sensori e la sorgente. Dopodiché, i flussi audio vengono sovrapposti in modo da fondere i singoli contributi in un unico flusso audio. A seconda del modello di interazione di rete, ogni sensore genera un flusso audio che presenta sequenze di silenzio (buchi). I buchi nel segnale ricostruito diminuiscono drasticamente l'accuratezza della procedura di riconoscimento del parlato. Sebbene il sistema BigEar, quando configurato per operare con i migliori parametri di rete, assicuri alte probabilità affinché il riconoscimento dia risultati positivi, sono stati testati quattro diversi metodi per riparare il segnale audio prima che esso venga inviato al blocco di riconoscimento del parlato. L'architettura è stata testata tramite un simulatore basato su codice MATLAB che permette di studiare il comportamento dell'intero sistema, dalla simulazione acustica dell'ambiente fino ai protocolli usati per le interazioni di rete. A partire dai parametri ottimi indicati dal simulatore è stato realizzato un prototipo reale. Dall'analisi dei risultati si può notare che BigEar può essere identificato quale sistema a costo minimo, senza fili e modulare. Inoltre, l'approccio distribuito al problema permette meccanismi di Intelligenza dei Dati, ad esempio eseguendo una localizzazione sommaria della sorgente (sfruttando le informazioni di ritardo e di energia del segnale) che permetta di aggiungere contenuto informativo in grado di disambiguare comandi vocali privi di contesto (i comandi "Spegni la luce" o - meglio - "Spegni questa luce" potrebbero essere integrati con una localizzazione in grado di determinare quale luce debba essere spenta).

BigEar : a low cost wireless distributed audio capturing system for ubiquitous automatic speech recognition

GORLA, STEFANO
2014/2015

Abstract

The ageing of world's population will raise the demand and challenges of elderly care in coming years. Several approaches have been devised to deal with the needs of older people proactively. Assistive domotics represents a relatively recent effort in this direction; in particular, Vocal Interaction can be a favored way to control the smart home environment, providing that the interface fulfills requirements of transparency and unobtrusiveness. Absence of intrusive devices induces a more natural interaction model in which there is no need to wear a microphone or to issue commands to specific "hotspots" of the dwelling. From these assumptions, a wireless, modular and low-cost speech capturing system has been implemented, in which a set of wireless audio sensors send captured data to a Base Station, which in turn is responsible for aggregating received data in order to rebuild the speech captured distributely by BigEar Audio Sensors. The reconstruction algorithm performs a first stage of energy and delay analysis of the audio streams coming from the sensors; this stage is needed for compensating energy and delay differences due to different source-sensors distances. Then, the streams are superposed in order to merge each contribution into a unique output stream. Each sensor generates an audio stream that, depending on network interaction model, will be not complete, presenting thus sequences of silence (holes). Holes in the reconstructed signal drastically decrease the accuracy of the speech recognition procedure. Although BigEar system, working with the best network parameters, ensures high chances for a successful speech recognition, four different methods have been used to repair the audio signal before sending it to the speech recognition block. BigEar architecture has been simulated by means of a MATLAB-based simulator that allows to study the whole system behavior, from the environment (room) acoustic simulation up to Network Interaction protocol. Once best parameters are pointed out by the simulation, a real-world prototype has been realized. From Results Analysis it can be seen that BigEar can be identified as a minimum cost, wireless and distributed system. Moreover, ubiquitous approach allows Data Intelligence mechanisms, e.g. performing a coarse-grain localization - using sensor signal power and delays information - in order to add informative content that could disambiguate context-free vocal commands ("Turn off the light" or - better - "Turn off this light" could be integrated with localization information in order to determine which light has to be switched off).
SAIDINEJAD, HASSAN
ING - Scuola di Ingegneria Industriale e dell'Informazione
21-dic-2015
2014/2015
L'invecchiamento della popolazione mondiale nei prossimi anni causerà l'accrescimento della domanda e le relative sfide nella cura degli anziani. Sono stati studiati numerosi approcci per far fronte alle esigenze delle persone meno giovani. La domotica assistiva rappresenta un passo - seppur relativamente recente - in questa direzione; in particolare, l'interazione vocale può essere una via preferenziale per controllare l'ambiente domestico gestito dalla domotica, a patto che l'interfaccia uomo-macchina soddisfi requisiti di trasparenza e non-intrusività. L'assenza di dispositivi invasivi induce a una interazione più naturale in cui non sia necessario indossare un microfono o impartire comandi attraverso specifici punti di ascolto dell'abitazione. A partire da queste premesse è stato implementato un sistema modulare, senza fili e a basso costo di cattura del parlato in cui un insieme di sensori audio invia i dati acquisiti a una Base Station, la quale provvede ad assemblare i dati ricevuti in modo da ricostruire il parlato precedentemente acquisito, in modo distribuito, dai sensori. L'algoritmo di ricostruzione esegue anzitutto l'analisi energetica e dei ritardi dei flussi audio; questa operazione è necessaria alla compensazione delle differenze energetiche e dei ritardi dovuti alle distanze tra i sensori e la sorgente. Dopodiché, i flussi audio vengono sovrapposti in modo da fondere i singoli contributi in un unico flusso audio. A seconda del modello di interazione di rete, ogni sensore genera un flusso audio che presenta sequenze di silenzio (buchi). I buchi nel segnale ricostruito diminuiscono drasticamente l'accuratezza della procedura di riconoscimento del parlato. Sebbene il sistema BigEar, quando configurato per operare con i migliori parametri di rete, assicuri alte probabilità affinché il riconoscimento dia risultati positivi, sono stati testati quattro diversi metodi per riparare il segnale audio prima che esso venga inviato al blocco di riconoscimento del parlato. L'architettura è stata testata tramite un simulatore basato su codice MATLAB che permette di studiare il comportamento dell'intero sistema, dalla simulazione acustica dell'ambiente fino ai protocolli usati per le interazioni di rete. A partire dai parametri ottimi indicati dal simulatore è stato realizzato un prototipo reale. Dall'analisi dei risultati si può notare che BigEar può essere identificato quale sistema a costo minimo, senza fili e modulare. Inoltre, l'approccio distribuito al problema permette meccanismi di Intelligenza dei Dati, ad esempio eseguendo una localizzazione sommaria della sorgente (sfruttando le informazioni di ritardo e di energia del segnale) che permetta di aggiungere contenuto informativo in grado di disambiguare comandi vocali privi di contesto (i comandi "Spegni la luce" o - meglio - "Spegni questa luce" potrebbero essere integrati con una localizzazione in grado di determinare quale luce debba essere spenta).
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
2015_12_Gorla.pdf

accessibile in internet per tutti

Descrizione: Testo della tesi
Dimensione 5.54 MB
Formato Adobe PDF
5.54 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/116081