Previous studies have reported the consequences of the interaction between vision and audition. The ventriloquism effect refers to the perception of a sound as coming from a direction of an apparent visual source rather than its true direction. The McGurk effect describes a situation in which the reception of an auditory stimulus is determined by the visual system. The interaction between vision and audition in the perception of distance is an uninvestigated aspect of multisensory integration. This research is conducted using natural scenes: both audio and video of a person playing a chord on an organ are recorded in a room at multiple distances. The auditory and the visual stimuli are separated and they are rendered in an immersive way using Oculus Rift and headphones with DirAC sound reproduction. Two sessions of tests are conducted: in the first one audition and vision are tested separately and for each sense the partecipant is asked to evaluate the distance of the stimulus. In the second test session the auditory and the visual stimuli are matched randomly and rendered at the same time. For every combination of audiovisual stimuli the listener is asked to report the perceived visual and auditory distance. The results of the unimodal tests confirm the tendency described by previous research. The visual estimate is accurate and reliable, while the auditory estimate tends to overestimate closer distances and to underestimate the further ones. In addition to this, the answers have a large variance: for this reason audition has a poor reliability compared to vision in the evaluation of distance. From the answers of the bimodal test it is clearly noticed that there is a relevant impact of the visual stimuli on the auditory distance evaluation, while the impact of auditory stimuli over the visual distance estimate is negligible. Several models about the decision strategy are proposed for explaining the distribution of the answers. Three strategies are defined according to the causal inference, i.e. the distinction between the cases where the audiovisual stimuli are integrated in a single interpretation and the cases where two uncorrelated events are perceived. The most likely strategy to be adopted in this task is the probability matching, belonging to the causal inference group. According to this, the impact of vision and audition on the auditory distance response is measured by two coefficients. Those values are defined for each pair of stimuli and they depend on the probability of co-localization of auditory and visual stimuli. When the stimuli are co-localized the estimation relies on both senses according to their reliability. Otherwise, when the stimuli are not integrated, the estimate only relies on the single involved sense. Once these sensory weights are defined for each pair of stimuli, they are grouped by auditory distance. The sequence of weights show a clear pattern: in the evaluation of auditory distance, the weight for vision becomes greater than audition in a certain spatial range. The space where the impact of vision exceeds the impact of audition is called window of interaction. This window is centered in the perceived position of the auditory stimulus and its dimension with respect to distance is at first rapidly increasing and then settling to a constant value. The last aspect of the analysis regards the spatial relation between the visual and the auditory stimulus that determines a single interpretation of the event. The window of integration is defined as the maximum relative distance between the auditory and visual stimuli that results in a single cause interpretation in half of the cases. It is a measure of how near must the auditory and visual stimuli be in order to be integrated in the same event. It is discovered that there is a weak but relevant correlation between the size of the window and the distance. Because of that it can be stated that further stimuli are more easily perceived as a single event.

Gli effetti dell’interazione tra vista ed udito sono stati oggetto di ricerca. L’effetto ventriloquo si riferisce alla situazione in cui la localizzazione della sorgente sonora è dominata dalla corrispondente sorgente visiva. L’effetto McGurk descrive una situazione in cui l’elaborazione di informazione sonora quali singoli fonemi è determinata dalla vista del movimento labiale. L’interazione tra vista ed udito nella percezione della distanza di un evento naturale e’ un aspetto tuttora non investigato nel campo dell’integrazione multisensoriale. Questa attivita’ di ricerca e’ stata condotta basando gli stimoli audiovisivi su una scena appartenente al mondo reale: una persona in una stanza mentre suona un accordo su un organo accompagnata da un metronomo. Di questo evento e’ stato ripetutamente registrato audio e video a molteplici distanze. Usando Oculus Rift e cuffie con tecnica di riproduzione spaziale del suono DirAC e’ stato possibile presentare gli stimoli audiovisivi in modo immersivo, dando l’impressione all’ascoltatore di un’esperienza realistica. Sono state condotte due sessioni di test. Durante la prima vista ed udito sono stati testati separatamente e per ogni stimolo il soggetto aveva il compito di valutarne la distanza. Durante la seconda sessione gli stimoli uditivi e visivi sono stati accoppiati casualmente e presentati allo stesso tempo. Per ogni combinazione e’ stato chiesto all’ascoltatore di riportare sia la distanza visiva che quella uditiva. I risultati del primo test confermano la tendenza descritta nei lavori di ricerca precedenti. La percezione visiva è accurata e affidabile, mentre quella uditiva tende a sovrastimare le distanze vicine e a sottostimare quelle più lontane. Inoltre le risposte per la distanza uditiva hanno una grande varianza: possiamo quindi affermare che l’udito è meno preciso ed affidabile rispetto alla vista nel valutare la distanza di un evento. Dai risultati dei test audiovisivo e’ emerso che lo stimolo visivo ha un effetto rilevante sulla percezione uditiva della distanza, mentre l’impatto dello stimolo uditivo sulla percezione visiva della distanza e’ trascurabile. Diversi modelli sono stati proposti per spiegare la strategia di risposta e quindi la distribuzione dei risultati. Tre strategie prevedono l’inferenza causale, ossia la distinzione tra i casi in cui l’evento audiovisivo è integrato in una singola interpretazione e quelli in cui due eventi non correlati sono percepiti. La strategia di decisione più probabilmente utilizzata in questo contesto è quella del probability matching, appartenente al gruppo dell’inferenza causale. A fronte di questo modello l’impatto di vista ed udito per la risposta uditiva è misurato da due coefficienti. Questi valori sono definiti per ogni coppia di stimoli e dipendono dalla probabilità di co-localizzazione degli stimoli audiovisivi. Quando l’evento sonoro e visivo sono co-localizzati, la stima della distanza avviene tramite entrambi i sensi in modo direttamente proporzionale alla loro affidabilità. Quando gli stimoli non sono integrati, la stima della distanza si affida singolarmente al senso coinvolto. Una volta definiti questi pesi per ogni coppia di stimoli, essi sono raggruppati per distanza uditiva. La sequenza dei coefficienti mostra un pattern chiaro: il peso per la vista supera il peso per l’udito in certe condizioni. Lo spazio in cui l’impatto visivo è maggiore rispetto a quello uditivo è chiamato finestra di interazione. Questa finestra è centrata nella posizione percepita dello stimolo uditivo e la sua dimensione cresce rapidamente con la distanza per poi fermarsi a un valore costante. L’ultimo aspetto dell’analisi riguarda la relazione tra stimoli visivo ed uditivo che determina una singola interpretazione dell’evento. La finestra di integrazione è definita come la massima distanza relativa tra gli stimoli visivo ed uditivo per cui l’evento è interpretato come singolo nella metà dei casi. E’ una misura di quanto vicini devono essere gli stimoli audiovisivi per essere percepiti come un evento unico. La finestra di integrazione non è simmetrica: nel caso in cui lo stimolo uditivo si trova più lontano dello stimolo visivo, essa aumenta con la distanza. Nel caso in cui lo stimolo uditivo è più vicino di quello visivo, la finestra rimane di dimensioni costanti.

The interaction between vision and audition in the perception of egocentric distance using 3D audio reproduction and surrounding video

MANDELLI, PIETRO
2014/2015

Abstract

Previous studies have reported the consequences of the interaction between vision and audition. The ventriloquism effect refers to the perception of a sound as coming from a direction of an apparent visual source rather than its true direction. The McGurk effect describes a situation in which the reception of an auditory stimulus is determined by the visual system. The interaction between vision and audition in the perception of distance is an uninvestigated aspect of multisensory integration. This research is conducted using natural scenes: both audio and video of a person playing a chord on an organ are recorded in a room at multiple distances. The auditory and the visual stimuli are separated and they are rendered in an immersive way using Oculus Rift and headphones with DirAC sound reproduction. Two sessions of tests are conducted: in the first one audition and vision are tested separately and for each sense the partecipant is asked to evaluate the distance of the stimulus. In the second test session the auditory and the visual stimuli are matched randomly and rendered at the same time. For every combination of audiovisual stimuli the listener is asked to report the perceived visual and auditory distance. The results of the unimodal tests confirm the tendency described by previous research. The visual estimate is accurate and reliable, while the auditory estimate tends to overestimate closer distances and to underestimate the further ones. In addition to this, the answers have a large variance: for this reason audition has a poor reliability compared to vision in the evaluation of distance. From the answers of the bimodal test it is clearly noticed that there is a relevant impact of the visual stimuli on the auditory distance evaluation, while the impact of auditory stimuli over the visual distance estimate is negligible. Several models about the decision strategy are proposed for explaining the distribution of the answers. Three strategies are defined according to the causal inference, i.e. the distinction between the cases where the audiovisual stimuli are integrated in a single interpretation and the cases where two uncorrelated events are perceived. The most likely strategy to be adopted in this task is the probability matching, belonging to the causal inference group. According to this, the impact of vision and audition on the auditory distance response is measured by two coefficients. Those values are defined for each pair of stimuli and they depend on the probability of co-localization of auditory and visual stimuli. When the stimuli are co-localized the estimation relies on both senses according to their reliability. Otherwise, when the stimuli are not integrated, the estimate only relies on the single involved sense. Once these sensory weights are defined for each pair of stimuli, they are grouped by auditory distance. The sequence of weights show a clear pattern: in the evaluation of auditory distance, the weight for vision becomes greater than audition in a certain spatial range. The space where the impact of vision exceeds the impact of audition is called window of interaction. This window is centered in the perceived position of the auditory stimulus and its dimension with respect to distance is at first rapidly increasing and then settling to a constant value. The last aspect of the analysis regards the spatial relation between the visual and the auditory stimulus that determines a single interpretation of the event. The window of integration is defined as the maximum relative distance between the auditory and visual stimuli that results in a single cause interpretation in half of the cases. It is a measure of how near must the auditory and visual stimuli be in order to be integrated in the same event. It is discovered that there is a weak but relevant correlation between the size of the window and the distance. Because of that it can be stated that further stimuli are more easily perceived as a single event.
PULKKI, VILLE
HIIPAKKA, CATARINA
ING - Scuola di Ingegneria Industriale e dell'Informazione
21-dic-2015
2014/2015
Gli effetti dell’interazione tra vista ed udito sono stati oggetto di ricerca. L’effetto ventriloquo si riferisce alla situazione in cui la localizzazione della sorgente sonora è dominata dalla corrispondente sorgente visiva. L’effetto McGurk descrive una situazione in cui l’elaborazione di informazione sonora quali singoli fonemi è determinata dalla vista del movimento labiale. L’interazione tra vista ed udito nella percezione della distanza di un evento naturale e’ un aspetto tuttora non investigato nel campo dell’integrazione multisensoriale. Questa attivita’ di ricerca e’ stata condotta basando gli stimoli audiovisivi su una scena appartenente al mondo reale: una persona in una stanza mentre suona un accordo su un organo accompagnata da un metronomo. Di questo evento e’ stato ripetutamente registrato audio e video a molteplici distanze. Usando Oculus Rift e cuffie con tecnica di riproduzione spaziale del suono DirAC e’ stato possibile presentare gli stimoli audiovisivi in modo immersivo, dando l’impressione all’ascoltatore di un’esperienza realistica. Sono state condotte due sessioni di test. Durante la prima vista ed udito sono stati testati separatamente e per ogni stimolo il soggetto aveva il compito di valutarne la distanza. Durante la seconda sessione gli stimoli uditivi e visivi sono stati accoppiati casualmente e presentati allo stesso tempo. Per ogni combinazione e’ stato chiesto all’ascoltatore di riportare sia la distanza visiva che quella uditiva. I risultati del primo test confermano la tendenza descritta nei lavori di ricerca precedenti. La percezione visiva è accurata e affidabile, mentre quella uditiva tende a sovrastimare le distanze vicine e a sottostimare quelle più lontane. Inoltre le risposte per la distanza uditiva hanno una grande varianza: possiamo quindi affermare che l’udito è meno preciso ed affidabile rispetto alla vista nel valutare la distanza di un evento. Dai risultati dei test audiovisivo e’ emerso che lo stimolo visivo ha un effetto rilevante sulla percezione uditiva della distanza, mentre l’impatto dello stimolo uditivo sulla percezione visiva della distanza e’ trascurabile. Diversi modelli sono stati proposti per spiegare la strategia di risposta e quindi la distribuzione dei risultati. Tre strategie prevedono l’inferenza causale, ossia la distinzione tra i casi in cui l’evento audiovisivo è integrato in una singola interpretazione e quelli in cui due eventi non correlati sono percepiti. La strategia di decisione più probabilmente utilizzata in questo contesto è quella del probability matching, appartenente al gruppo dell’inferenza causale. A fronte di questo modello l’impatto di vista ed udito per la risposta uditiva è misurato da due coefficienti. Questi valori sono definiti per ogni coppia di stimoli e dipendono dalla probabilità di co-localizzazione degli stimoli audiovisivi. Quando l’evento sonoro e visivo sono co-localizzati, la stima della distanza avviene tramite entrambi i sensi in modo direttamente proporzionale alla loro affidabilità. Quando gli stimoli non sono integrati, la stima della distanza si affida singolarmente al senso coinvolto. Una volta definiti questi pesi per ogni coppia di stimoli, essi sono raggruppati per distanza uditiva. La sequenza dei coefficienti mostra un pattern chiaro: il peso per la vista supera il peso per l’udito in certe condizioni. Lo spazio in cui l’impatto visivo è maggiore rispetto a quello uditivo è chiamato finestra di interazione. Questa finestra è centrata nella posizione percepita dello stimolo uditivo e la sua dimensione cresce rapidamente con la distanza per poi fermarsi a un valore costante. L’ultimo aspetto dell’analisi riguarda la relazione tra stimoli visivo ed uditivo che determina una singola interpretazione dell’evento. La finestra di integrazione è definita come la massima distanza relativa tra gli stimoli visivo ed uditivo per cui l’evento è interpretato come singolo nella metà dei casi. E’ una misura di quanto vicini devono essere gli stimoli audiovisivi per essere percepiti come un evento unico. La finestra di integrazione non è simmetrica: nel caso in cui lo stimolo uditivo si trova più lontano dello stimolo visivo, essa aumenta con la distanza. Nel caso in cui lo stimolo uditivo è più vicino di quello visivo, la finestra rimane di dimensioni costanti.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
Pietro_Thesis.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Testo della tesi
Dimensione 4.62 MB
Formato Adobe PDF
4.62 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/116332