PATHOSnet. Multimodal deep neural network for multilingual speech emotion recognition

This thesis presents PATHOSnet, a Deep Neural Network for Multilingual Speech Emotion Recognition. The proposed model exploits a multimodal analysis leveraging paralinguistic informations extracted from audio signals and linguistic informations extracted from their transcriptions. The innovative proposals in the model architecture are the fully convolutional networks and the employment of pre-trained models for both audio and text feature extraction. The convolution approach accelerates the model and influences both train and prediction time, while the pre-trained models guarantee a better and more accurate performances. The pre-trained models considered are Glove, an unsupervised work embedding model used on the transcriptions words and VGGish and Thin-ResNet, convolutional neural networks for the audio signal feature extraction. Also an ensemble employing both audio pre-trained models led to great improvements on final performances. The model was tested on IEMOCAP English corpus and overcame the state of the art results achieving an accuracy of 81.2%. Then we examinate the behaviour of the model on different languages and in a multilingual setting. Firstly we checked if, and under which conditions, using data from a foreign language could help to face the data scarcity problem detected on some languages; then we examinated the performances in a multilingual setting, where we trained the same model to classify different languages audio signals. To adapt the model to work in a multilingual way we introduced the MUSE model for multilingual word embedding. The considered languages are English, Spanish, Greek and Italian. Lastly we tested the performances using ASR generated transcriptions, in order to simulated real case scenario and to control the error introduced.

In questa tesi viene presentata PATHOSnet, una Rete Neurale Profonda Multilingua per il riconoscimento vocale delle emozioni. Il modello proposto utilizza una analisi multimodale sfruttando informazioni paralinguistiche estratte dal segnale audio e informazioni linguistiche provenienti dalla sua trascrizione. L'ultilizzo di una architettura completamente convolutiva e l'utilizzo di modelli pre-addestrati per l'estrazione delle features rappresentano i due aspetti innovativi nella struttura della rete. La convoluzione garantisce velocità alla rete mentre i modelli pre-addestrati permettono una analisi più efficace e migliori prestazioni. I modelli pre-addestrati presi in considerazione sono stati GloVe per generare il word embedding delle trascrizioni, VGGish e Thin-ResNet per l'analisi dei segnali audio. La combinazione di entrambi i modelli audio pre-addestrati in un ensemble ha portato a notevoli miglioramenti sulle prestazioni. Il modello è stato testato sul corpus inglese IEMOCAP e ha superato il precedente stato dell'arte ottenendo una accuratezza pari a 81.2%. Un ulteriore direzione di analisi è stato verificare come tale modello si comportasse con lingue differenti e le prestazioni in un ambiente multilingua. Le lingue prese in considerazione sono state Inglese, Spagnolo, Greco e Italiano. Si è prima di tutto analizzato se, e in quali condizioni, l'utilizzo di dati in lingua straniera rispetto la lingua principale potesse aiutare ad affrontare il problema della scarsità dei dati riscontrato per alcune lingue; poi si è passati a verificare che un approccio multilingua è realizzabile e non comporta gravi peggioramenti delle prestazioni rispetto al caso monolingua. Il modello, per lavorare in una strategia multilingua, è stato modificando introducendo MUSE, un modello pre-addestrato non supervisionato multilingua di word embedding. Si è in ultimo analizzato le prestazioni del modello usando le trascrizioni generate da un ASR, per simulare condizioni più reali e verificare quale errore venisse introdotto in tali circostanze.