Motor speech impairments are often the first symptoms in several neurodegenerative diseases. In particular, articulatory errors such as apraxia of speech and/or dysarthria are the most typical initial symptoms of non-fluent/agrammatic variant primary progressive aphasia (nfvPPA), a disorder that progressively debilitates the production of speech. The evaluation of motor speech deficits is still based on perceptual and subjective judgments of clinicians. Dynamic speech MRI (dsMRI) is a non-invasive technique able to image the entire vocal tract and its change over time with high contrast and high temporal resolution, while participants speak in the scanner. The objective of this work is to develop an automatic vocal tract segmentation tool (VTS-tool) by leveraging recent advances in deep learning models (advanced UNets) and dsMRI images to extract the contouring of the main articulators. Specifically, the following articulators were automatically identified: the upper and lower lips, the soft and hard palate, and the tongue with epiglottis. Moreover, we implemented a simple spatial measure to follow the change of articulators over time. We used a dataset composed of 970 dynamic MRI images from 4 young control subjects and 1 nfvPPA patient, representing the mid-sagittal view of their vocal tract during the repetition of specific speech stimuli. First, we provided a manual annotation of the contouring of the main articulators under the supervision of an expert radiologist. These manual segmentations were used to train and test 95 networks composed by the combination of 5 UNets and 19 singular and compound loss functions. Their accuracy was assessed by Dice, Hausdorff Distance and Global Consistency Error metrics. A statistical analysis based on Kruskal Wallis Test was used to identify the three best networks among the 95 tested and a subject-one-out cross validation was conducted to test their generalizability. The best networks showed good metrics results: a median Dice of 0.92, a median Hausdorff Distance of 0.32 and a median Global Consistency Error of 0.0011. Cross validation results also demonstrated that these networks achieve good generalizability and don't suffer from overfitting problem. Best networks were all built with compound loss functions made by three or four losses, proving the superiority of multiple losses compared to double or singular ones.

I disturbi motori del linguaggio sono spesso i primi sintomi di molte malattie neurodegenerative. In particolare, gli errori articolatori come l'aprassia del linguaggio e/o la disartria sono i sintomi iniziali più tipici dell'afasia progressiva primaria con variante non fluente/agrammatica (nfvPPA), un disturbo che debilita progressivamente la produzione del linguaggio. Ad oggi la valutazione dei deficit motori del linguaggio si basa sulla valutazione percettiva e soggettiva dei clinici. La risonanza magnetica dinamica del parlato (dsMRI) è una tecnica non invasiva in grado di visualizzare l'intero tratto vocale e il suo cambiamento nel tempo durante il parlato, con un contrasto elevato e un'elevata risoluzione temporale. L'obiettivo di questo lavoro è sviluppare uno strumento di segmentazione automatica del tratto vocale (VTS-tool) sfruttando i recenti progressi nei modelli di deep learning (UNet avanzate) e le immagini dsMRI per estrarre il contorno dei principali articolatori. Nello specifico sono stati identificati automaticamente i seguenti articolatori: le labbra superiori e inferiori, il palato molle e duro e la lingua con l'epiglottide. Inoltre, abbiamo implementato una semplice misura spaziale per monitorare l'andamento degli articolatori nel tempo. Abbiamo utilizzato un dataset composto da 970 immagini dsMRI di 4 giovani soggetti di controllo e 1 paziente nfvPPA, che rappresentano la vista medio-sagittale del loro tratto vocale durante la ripetizione di specifici stimoli vocali. In primo luogo, abbiamo fornito un'annotazione manuale del contorno dei principali articolatori sotto la supervisione di un radiologo esperto. Queste segmentazioni manuali sono state utilizzate per addestrare e testare 95 reti formate dalla combinazione di 5 UNet e 19 funzioni di perdita singole e composte. La loro accuratezza è stata valutata dalle metriche Dice, Hausdorff Distance e Global Consistency Error. Un'analisi statistica basata sul test di Kruskal Wallis è stata utilizzata per identificare le tre migliori reti tra le 95 testate ed è stata condotta una subject-one-out cross-validazione per testarne la generalizzabilità. Le migliori reti hanno mostrato buoni risultati: un valore mediano di Dice di 0.92, un valore mediano di Hausdorff Distance di 0.32 e un valore mediano di Global Consistency Error di 0.0011. I risultati della cross-validazione hanno anche dimostrato che queste reti raggiungono una buona generalizzabilità e non presentano problemi di overfitting. Le migliori reti sono state tutte costruite con funzioni di perdita composte formate da tre o quattro elementi, dimostrando la superiorità delle funzioni di perdita multiple rispetto a quelle doppie o singole.

Vocal tract segmentation of dynamic speech MRI images based on deep learning for neurodegenerative disease application

BONÀ, ANGELICA;Cavicchioli, Matteo
2020/2021

Abstract

Motor speech impairments are often the first symptoms in several neurodegenerative diseases. In particular, articulatory errors such as apraxia of speech and/or dysarthria are the most typical initial symptoms of non-fluent/agrammatic variant primary progressive aphasia (nfvPPA), a disorder that progressively debilitates the production of speech. The evaluation of motor speech deficits is still based on perceptual and subjective judgments of clinicians. Dynamic speech MRI (dsMRI) is a non-invasive technique able to image the entire vocal tract and its change over time with high contrast and high temporal resolution, while participants speak in the scanner. The objective of this work is to develop an automatic vocal tract segmentation tool (VTS-tool) by leveraging recent advances in deep learning models (advanced UNets) and dsMRI images to extract the contouring of the main articulators. Specifically, the following articulators were automatically identified: the upper and lower lips, the soft and hard palate, and the tongue with epiglottis. Moreover, we implemented a simple spatial measure to follow the change of articulators over time. We used a dataset composed of 970 dynamic MRI images from 4 young control subjects and 1 nfvPPA patient, representing the mid-sagittal view of their vocal tract during the repetition of specific speech stimuli. First, we provided a manual annotation of the contouring of the main articulators under the supervision of an expert radiologist. These manual segmentations were used to train and test 95 networks composed by the combination of 5 UNets and 19 singular and compound loss functions. Their accuracy was assessed by Dice, Hausdorff Distance and Global Consistency Error metrics. A statistical analysis based on Kruskal Wallis Test was used to identify the three best networks among the 95 tested and a subject-one-out cross validation was conducted to test their generalizability. The best networks showed good metrics results: a median Dice of 0.92, a median Hausdorff Distance of 0.32 and a median Global Consistency Error of 0.0011. Cross validation results also demonstrated that these networks achieve good generalizability and don't suffer from overfitting problem. Best networks were all built with compound loss functions made by three or four losses, proving the superiority of multiple losses compared to double or singular ones.
MANDELLI, MARIA LUISA
ROSSI, MATTEO
ING - Scuola di Ingegneria Industriale e dell'Informazione
28-apr-2022
2020/2021
I disturbi motori del linguaggio sono spesso i primi sintomi di molte malattie neurodegenerative. In particolare, gli errori articolatori come l'aprassia del linguaggio e/o la disartria sono i sintomi iniziali più tipici dell'afasia progressiva primaria con variante non fluente/agrammatica (nfvPPA), un disturbo che debilita progressivamente la produzione del linguaggio. Ad oggi la valutazione dei deficit motori del linguaggio si basa sulla valutazione percettiva e soggettiva dei clinici. La risonanza magnetica dinamica del parlato (dsMRI) è una tecnica non invasiva in grado di visualizzare l'intero tratto vocale e il suo cambiamento nel tempo durante il parlato, con un contrasto elevato e un'elevata risoluzione temporale. L'obiettivo di questo lavoro è sviluppare uno strumento di segmentazione automatica del tratto vocale (VTS-tool) sfruttando i recenti progressi nei modelli di deep learning (UNet avanzate) e le immagini dsMRI per estrarre il contorno dei principali articolatori. Nello specifico sono stati identificati automaticamente i seguenti articolatori: le labbra superiori e inferiori, il palato molle e duro e la lingua con l'epiglottide. Inoltre, abbiamo implementato una semplice misura spaziale per monitorare l'andamento degli articolatori nel tempo. Abbiamo utilizzato un dataset composto da 970 immagini dsMRI di 4 giovani soggetti di controllo e 1 paziente nfvPPA, che rappresentano la vista medio-sagittale del loro tratto vocale durante la ripetizione di specifici stimoli vocali. In primo luogo, abbiamo fornito un'annotazione manuale del contorno dei principali articolatori sotto la supervisione di un radiologo esperto. Queste segmentazioni manuali sono state utilizzate per addestrare e testare 95 reti formate dalla combinazione di 5 UNet e 19 funzioni di perdita singole e composte. La loro accuratezza è stata valutata dalle metriche Dice, Hausdorff Distance e Global Consistency Error. Un'analisi statistica basata sul test di Kruskal Wallis è stata utilizzata per identificare le tre migliori reti tra le 95 testate ed è stata condotta una subject-one-out cross-validazione per testarne la generalizzabilità. Le migliori reti hanno mostrato buoni risultati: un valore mediano di Dice di 0.92, un valore mediano di Hausdorff Distance di 0.32 e un valore mediano di Global Consistency Error di 0.0011. I risultati della cross-validazione hanno anche dimostrato che queste reti raggiungono una buona generalizzabilità e non presentano problemi di overfitting. Le migliori reti sono state tutte costruite con funzioni di perdita composte formate da tre o quattro elementi, dimostrando la superiorità delle funzioni di perdita multiple rispetto a quelle doppie o singole.
File allegati
File Dimensione Formato  
2022_04_Cavicchioli_Bonà.pdf

accessibile in internet per tutti

Descrizione: Tesi
Dimensione 20.33 MB
Formato Adobe PDF
20.33 MB Adobe PDF Visualizza/Apri
2022_04_Cavicchioli_Bonà_Executive_Summary.pdf

accessibile in internet per tutti

Descrizione: Executive Summary
Dimensione 921.46 kB
Formato Adobe PDF
921.46 kB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/188343