Parkinson’s Disease (PD) is known to be clinically heterogeneous both in symptoms (motor and non-motor) and in progression. Therefore, it is crucial to identify subtypes within PD in order to gain insights into its underlying mechanisms, predict disease progression, develop suitable therapies, and design precision medicine strategies. Consequently, there is a need to develop more comprehensive approaches that can take into account various aspects of patients' characteristics when categorizing subtypes. The present work was motivated by this point and aims to investigate the role of Machine Learning, and more specifically Deep Learning techniques starting from RNA-seq datasets to explore sporadic PD subtypes at a molecular level. To that end, available gene expression subtyped data coming from The Cancer Genome Atlas project for Breast Cancer (TCGA-BRCA) used to build and train an unsupervised pipeline that can be useful for the task in hand, Parkinson’s Disease Subtyping. These were used to explore various techniques and assess the performance of different deep unsupervised pipelines. Used techniques focused on different Generative Models for dimensionality reduction including Variational Autoencoders and Vector Quantization Variational Autoencoder as means of extracting useful embeddings from data without labels, and in this way tackle the high-dimensionality and scarcity of the data. Obtained embeddings then fed to a clustering block to assess the clusters found compared with the true subtypes, accordingly the best model has been chosen. The resulting model used to find Parkinson’s Disease subtypes that is available for laboratory verification and validation.

La malattia di Parkinson (PD) è nota per essere clinicamente eterogenea sia nei sintomi (motori e non motori) che nella progressione. Pertanto, è cruciale identificare sottotipi all'interno del PD al fine di comprendere i meccanismi sottostanti, prevedere la progressione della malattia, sviluppare terapie adeguate e progettare strategie di medicina di precisione. Di conseguenza, è necessario sviluppare approcci più completi in grado di considerare vari aspetti delle caratteristiche dei pazienti durante il processo di categorizzazione dei sottotipi. Il presente lavoro è stato motivato da questo punto e mira a indagare il ruolo dell'apprendimento automatico, e più specificamente delle tecniche di apprendimento profondo, a partire da set di dati RNA-seq per esplorare i sottotipi sporadici del PD a livello molecolare. A tal fine, i dati di sottotipizzazione dell'espressione genica disponibili provenienti dal progetto The Cancer Genome Atlas per il cancro al seno (TCGA-BRCA) sono stati utilizzati per costruire e addestrare una pipeline non supervisionata che può essere utile per il compito in questione, la sottotipizzazione della malattia di Parkinson. Questi sono stati utilizzati per esplorare varie tecniche e valutare le prestazioni di diverse pipeline di apprendimento profondo non supervisionato. Le tecniche utilizzate si sono concentrate su diversi modelli generativi per la riduzione della dimensionalità, inclusi gli Autoencoder Variazionali e l'Autoencoder Variazionale di Quantizzazione Vettoriale, come mezzi per estrarre embedding utili dai dati senza etichette e affrontare l'alta dimensionalità e la scarsità dei dati. Gli embedding ottenuti sono stati quindi forniti a un blocco di clustering per valutare i cluster trovati rispetto ai sottotipi reali e, di conseguenza, è stato scelto il miglior modello. Il modello risultante è stato utilizzato per individuare i sottotipi della malattia di Parkinson che sono disponibili per verifica e convalida in laboratorio.

Investigating deep unsupervised learning for whole-transcriptome Parkinson's disease subtyping

EITHAR ABDALSLAM MOHAMMED AHMED YASSIN
2022/2023

Abstract

Parkinson’s Disease (PD) is known to be clinically heterogeneous both in symptoms (motor and non-motor) and in progression. Therefore, it is crucial to identify subtypes within PD in order to gain insights into its underlying mechanisms, predict disease progression, develop suitable therapies, and design precision medicine strategies. Consequently, there is a need to develop more comprehensive approaches that can take into account various aspects of patients' characteristics when categorizing subtypes. The present work was motivated by this point and aims to investigate the role of Machine Learning, and more specifically Deep Learning techniques starting from RNA-seq datasets to explore sporadic PD subtypes at a molecular level. To that end, available gene expression subtyped data coming from The Cancer Genome Atlas project for Breast Cancer (TCGA-BRCA) used to build and train an unsupervised pipeline that can be useful for the task in hand, Parkinson’s Disease Subtyping. These were used to explore various techniques and assess the performance of different deep unsupervised pipelines. Used techniques focused on different Generative Models for dimensionality reduction including Variational Autoencoders and Vector Quantization Variational Autoencoder as means of extracting useful embeddings from data without labels, and in this way tackle the high-dimensionality and scarcity of the data. Obtained embeddings then fed to a clustering block to assess the clusters found compared with the true subtypes, accordingly the best model has been chosen. The resulting model used to find Parkinson’s Disease subtypes that is available for laboratory verification and validation.
MESSA, LETIZIA
MONGARDI, SOFIA
ING - Scuola di Ingegneria Industriale e dell'Informazione
18-lug-2023
2022/2023
La malattia di Parkinson (PD) è nota per essere clinicamente eterogenea sia nei sintomi (motori e non motori) che nella progressione. Pertanto, è cruciale identificare sottotipi all'interno del PD al fine di comprendere i meccanismi sottostanti, prevedere la progressione della malattia, sviluppare terapie adeguate e progettare strategie di medicina di precisione. Di conseguenza, è necessario sviluppare approcci più completi in grado di considerare vari aspetti delle caratteristiche dei pazienti durante il processo di categorizzazione dei sottotipi. Il presente lavoro è stato motivato da questo punto e mira a indagare il ruolo dell'apprendimento automatico, e più specificamente delle tecniche di apprendimento profondo, a partire da set di dati RNA-seq per esplorare i sottotipi sporadici del PD a livello molecolare. A tal fine, i dati di sottotipizzazione dell'espressione genica disponibili provenienti dal progetto The Cancer Genome Atlas per il cancro al seno (TCGA-BRCA) sono stati utilizzati per costruire e addestrare una pipeline non supervisionata che può essere utile per il compito in questione, la sottotipizzazione della malattia di Parkinson. Questi sono stati utilizzati per esplorare varie tecniche e valutare le prestazioni di diverse pipeline di apprendimento profondo non supervisionato. Le tecniche utilizzate si sono concentrate su diversi modelli generativi per la riduzione della dimensionalità, inclusi gli Autoencoder Variazionali e l'Autoencoder Variazionale di Quantizzazione Vettoriale, come mezzi per estrarre embedding utili dai dati senza etichette e affrontare l'alta dimensionalità e la scarsità dei dati. Gli embedding ottenuti sono stati quindi forniti a un blocco di clustering per valutare i cluster trovati rispetto ai sottotipi reali e, di conseguenza, è stato scelto il miglior modello. Il modello risultante è stato utilizzato per individuare i sottotipi della malattia di Parkinson che sono disponibili per verifica e convalida in laboratorio.
File allegati
File Dimensione Formato  
2023_07_Abdalslam Mohammed Ahmed Yassin_Executive Summary_02.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Executive Summary
Dimensione 1.71 MB
Formato Adobe PDF
1.71 MB Adobe PDF   Visualizza/Apri
2023_07_Abdalslam Mohammed Ahmed Yassin_Thesis_02.pdf

accessibile in internet solo dagli utenti autorizzati

Descrizione: Thesis
Dimensione 3.85 MB
Formato Adobe PDF
3.85 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/212778