THIS thesis presents a wide-ranging research work on prosody. Prosody is defined as the group of audio paralinguistic and suprasegmental clues involved in the communicative and understanding process of human speech. According to the main Universals in language, each Speech Act expresses common needs (e.g., talking about past or future events) similar for all humans, which are acoustically realized according to linguistic and phonotactics language related rules. At the same time, a spoken message can be uttered with a variable prosody because of countless factors as social context, emotions, intentions, rhetoric or spatial dislocation. This work starts proposing a new descriptive model in order to analyze prosody complexity in a structured and orderly manner, within which the sound of an utterance is considered as the final product of many exogenous and endogenous influences referring to the speaker. An Italian recited speech corpus and a psychoacoustic experiment were built in order to validate part of the model and to analyze the influence of semantics, phonotaxis and intonation on understanding processes. Results have been useful to defining the feature set to rely on the following parts of the work, regarding automatic recognition. Two neural network architectures have been developed, both of them regarding the Italian language. The first concerns the recognition of statements, questions and exclamations (using both textual and sound inputs), while the second identifies the presence of corrective focus into utterances (sound inputs only). A last section is focused on the semi-automatic characterization of prosody, laying the groundwork for further automatic recognition systems focused on prosodic skills. A monitoring protocol of expressivity and vocal qualities based on features extraction is then described, followed by practical applications to clinical, educational and forensics fields. The main contributions of this thesis are the definition of a new multi-dimensional conceptual model describing prosodic forms, two NNs based architectures for structures and corrective focus detection, two new audio/textual corpuses composed by recited and read speech used to feed NNs, and a proposal for the semiautomatic analysis of some aspects of prosody and expressiveness.

QUESTA tesi affronta una ricerca ad ampio raggio sulla prosodia, definita come l’insieme delle caratteristiche audio paralinguistiche e soprasegmentali coinvolte nel processo di comunicazione e comprensione del parlato umano. Attingendo dalla teoria degli Universali linguistici, ogni Atto Linguistico esprime dei bisogni e delle attitudini comuni a tutti gli uomini (ad esempio parlare di eventi futuri o passati), i quali si realizzano acusticamente secondo regole linguistiche e fono- tattiche caratteristiche per ogni idioma. Allo stesso tempo, uno stesso messaggio può essere pronunciato in molte modalità differenti a causa dell’influenza di innumerevoli fattori come, ad esempio, il contesto sociale, le emozioni, le intenzioni, la retorica o la dislocazione spaziale. Questo lavoro inizia pertanto proponendo un nuovo modello descrittivo per l’analisi strutturata della complessità prosodica, nel quale l’ Atto Linguistico rappresenta il risultato finale di molteplici influenze esogene ed endogene rispetto al parlatore. Sono stati realizzati un corpus di parlato recitato in lingua italiana ed un esperimento psicoacustico per validare parte del modello ed indagare l’influenza di semantica, fonotassi e intonazione sui processi di comprensione. I risultati sono stati utilizzati anche per definire le tipologie ed i gruppi di feature da utilizzare nella successiva parte del lavoro, riguardante il riconoscimento automatico. Sono state sviluppate due architetture basate su reti neurali, entrambe relative alla lingua italiana: la prima riconosce Affermazioni, Domande ed Esclamazioni (utilizzando input audio e testuali), mentre la seconda individua il Focus Correttivo (input audio). Un’ultima sezione si concentra sulla caratterizzazione semi-automatica della prosodia, gettando le basi per un lavoro futuro inerente il riconoscimento automatico nel campo delle competenze prosodiche. Viene descritto un protocollo di monitoraggio dell’espressività e delle qualità vocali basato sull’estrazione di features significative, seguito da alcune applicazioni pratiche per la clinica ed il forense. I principali contributi di questa tesi sono: la definizione di un nuovo modello concettuale multidimensionale per la prosodia, due architetture basate su reti neurali per il riconoscimento di strutture e focus correttivo, i due corpus di parlato letto e recitato utilizzati per alimentarle e un proposta per l’analisi semiautomatica di prosodia ed espressività.

Speech analysis for automatic prosody recognition

CENCESCHI, SONIA

Abstract

THIS thesis presents a wide-ranging research work on prosody. Prosody is defined as the group of audio paralinguistic and suprasegmental clues involved in the communicative and understanding process of human speech. According to the main Universals in language, each Speech Act expresses common needs (e.g., talking about past or future events) similar for all humans, which are acoustically realized according to linguistic and phonotactics language related rules. At the same time, a spoken message can be uttered with a variable prosody because of countless factors as social context, emotions, intentions, rhetoric or spatial dislocation. This work starts proposing a new descriptive model in order to analyze prosody complexity in a structured and orderly manner, within which the sound of an utterance is considered as the final product of many exogenous and endogenous influences referring to the speaker. An Italian recited speech corpus and a psychoacoustic experiment were built in order to validate part of the model and to analyze the influence of semantics, phonotaxis and intonation on understanding processes. Results have been useful to defining the feature set to rely on the following parts of the work, regarding automatic recognition. Two neural network architectures have been developed, both of them regarding the Italian language. The first concerns the recognition of statements, questions and exclamations (using both textual and sound inputs), while the second identifies the presence of corrective focus into utterances (sound inputs only). A last section is focused on the semi-automatic characterization of prosody, laying the groundwork for further automatic recognition systems focused on prosodic skills. A monitoring protocol of expressivity and vocal qualities based on features extraction is then described, followed by practical applications to clinical, educational and forensics fields. The main contributions of this thesis are the definition of a new multi-dimensional conceptual model describing prosodic forms, two NNs based architectures for structures and corrective focus detection, two new audio/textual corpuses composed by recited and read speech used to feed NNs, and a proposal for the semiautomatic analysis of some aspects of prosody and expressiveness.
PERNICI, BARBARA
PERNICI, BARBARA
18-feb-2019
QUESTA tesi affronta una ricerca ad ampio raggio sulla prosodia, definita come l’insieme delle caratteristiche audio paralinguistiche e soprasegmentali coinvolte nel processo di comunicazione e comprensione del parlato umano. Attingendo dalla teoria degli Universali linguistici, ogni Atto Linguistico esprime dei bisogni e delle attitudini comuni a tutti gli uomini (ad esempio parlare di eventi futuri o passati), i quali si realizzano acusticamente secondo regole linguistiche e fono- tattiche caratteristiche per ogni idioma. Allo stesso tempo, uno stesso messaggio può essere pronunciato in molte modalità differenti a causa dell’influenza di innumerevoli fattori come, ad esempio, il contesto sociale, le emozioni, le intenzioni, la retorica o la dislocazione spaziale. Questo lavoro inizia pertanto proponendo un nuovo modello descrittivo per l’analisi strutturata della complessità prosodica, nel quale l’ Atto Linguistico rappresenta il risultato finale di molteplici influenze esogene ed endogene rispetto al parlatore. Sono stati realizzati un corpus di parlato recitato in lingua italiana ed un esperimento psicoacustico per validare parte del modello ed indagare l’influenza di semantica, fonotassi e intonazione sui processi di comprensione. I risultati sono stati utilizzati anche per definire le tipologie ed i gruppi di feature da utilizzare nella successiva parte del lavoro, riguardante il riconoscimento automatico. Sono state sviluppate due architetture basate su reti neurali, entrambe relative alla lingua italiana: la prima riconosce Affermazioni, Domande ed Esclamazioni (utilizzando input audio e testuali), mentre la seconda individua il Focus Correttivo (input audio). Un’ultima sezione si concentra sulla caratterizzazione semi-automatica della prosodia, gettando le basi per un lavoro futuro inerente il riconoscimento automatico nel campo delle competenze prosodiche. Viene descritto un protocollo di monitoraggio dell’espressività e delle qualità vocali basato sull’estrazione di features significative, seguito da alcune applicazioni pratiche per la clinica ed il forense. I principali contributi di questa tesi sono: la definizione di un nuovo modello concettuale multidimensionale per la prosodia, due architetture basate su reti neurali per il riconoscimento di strutture e focus correttivo, i due corpus di parlato letto e recitato utilizzati per alimentarle e un proposta per l’analisi semiautomatica di prosodia ed espressività.
Tesi di dottorato
File allegati
File Dimensione Formato  
2019_02_PhD_Cenceschi.pdf

non accessibile

Descrizione: Testo della tesi
Dimensione 16.89 MB
Formato Adobe PDF
16.89 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/144841