Characterization of the features of clear speech : an acoustic analysis of the influence of speech processing settings in cochlear implants

The ability to hear sound is an important factor in the definition of personal well-being. The correct understanding of speech is also essential in the daily activities and relationships. For this reason the improvement of hearing systems to address the problems of deaf people, appears among the most significant development in the fields of biomedical applications. The achievements of the current technologies relating to hearing aids and cochlear implants, provide the tools for better sound definition. The problem in patients who use these devices, still remains the lack of naturalness of speech perception. The various fields of research and development have focused more on defining the technical acquisition and on signal processing to compensate the lack of perception, without insight into what may be the objective characteristics that make speech intelligible. A new branch of research is targeting on this study by analyzing the temporal and spectral characteristics of what is called the 'clear' speech (or hyper-articulated) that is more intelligible than conversational speech commonly used. This Thesis addresses the research of these characteristics, through the studies in literature, and defines a set of these of significant importance for the speech intelligibility. Based on the selected features, is then developed a comparison between segments spoken clearly (words and phrases) and the signals processed starting from original, through a cochlear implant simulator. This simulator reproduces the signal sent to the auditory nerve, as perceived by an individual implanted with a cochlear implant. A comparison of the characteristics found between the original signal and processed signal, gives a measure of the quality of the processing of a cochlear implant The results show how that signal processing optimally preserves the selected features and provides a parameter optimization for the simulator, founding a number of processing channels capable of maintaining the properties of clear speech. This value is in line with the implementation choices of the manufacturers of cochlear implants and is therefore a confirmation of goodness of the development of the peculiarities of the features extracted.

La capacità di percezione del suono è un fattore importante per la definizione del benessere personale. La corretta comprensione del parlato è poi fondamentale nelle attività quotidiane e nelle relazioni di ogni giorno. Per questo il perfezionamento delle apparecchiature acustiche per ovviare alle problematiche dei soggetti audiolesi, risulta tra i campi di sviluppo maggiormente rilevanti nelle applicazioni biomediche. I traguardi raggiunti dalle tecnologie attuali riguardanti gli apparecchi acustici e gli impianti cocleari, forniscono gli strumenti per una sempre migliore definizione del suono. Ma un problema riscontrato nei pazienti che fanno uso di queste apparecchiature, rimane ancora oggi la scarsa naturalezza della percezione del parlato. I vari campi di ricerca e di sviluppo si sono concentrati maggiormente sulla definizione delle tecniche di acquisizione ed elaborazione del segnale, per compensare le carenze percettive, mancando di approfondire quali possano essere le caratteristiche oggettive che rendano il parlato intellegibile. Una nuova branca di ricerca si sta orientando su questo studio andando ad analizzare le caratteristiche temporali e spettrali di quello che viene definito il parlato ‘chiaro’ (o iperarticolato) che risulta maggiormente intellegibile rispetto al parlato colloquiale comunemente usato. Questa Tesi affronta la ricerca in letteratura di studi che abbiano preso in esame queste caratteristiche, e definisce un insieme di quelle maggiormente rilevanti per l’incremento dell’intelligibilità. Sulla base delle caratteristiche selezionate, viene poi sviluppato un confronto tra dei segmenti di clear speech (parole e frasi) e dei segnali processati a partire dagli originali, attraverso un simulatore di impianto cocleare. Questo simulatore riproduce il segnale inviato al nervo acustico, così come viene percepito da un soggetto impiantato. Il confronto delle caratteristiche rilevate, tra il segnale originale e i segnali processati, fornisce una misura della bontà di elaborazione di un impianto cocleare. I risultati ottenuti dimostrano come questa elaborazione di segnale vada a conservare in maniera ottimale le caratteristiche selezionate, e definiscono un parametro di ottimizzazione per il simulatore stesso, fornendo una misura del numero di canali di processamento capace di mantenere le proprietà del clear speech. Questo valore risulta essere in linea con le scelte implementative delle aziende produttrici degli impianti cocleari ed è interpretato quindi come una conferma della bontà dell’elaborazione e delle peculiarità delle caratteristiche estratte.