Type 2 diabetes (T2D) is an extremely heterogeneous disease, due to different clinical pictures, drug response and disease progression among patients. This study aims to leverage the information about the ongoing biological processes present in the expression of blood serum proteins to explain this heterogeneity by identifying different subtypes of T2D. To perform this task we adapted a previously existing Variational Autoencoder developed for single cell transcriptomics to build ProteoVAE, a biologically interpretable model that can map protein expression into latent representations of the activity of molecular pathways by leveraging the prior knowledge regarding the relationship between these pathways and their proteins. To validate this framework, we exploited accurate statistical tests and literature review to perform a proof of concept, which showed that the latent features extracted from the model represent, in fact, specific biological processes, some of them strictly related to diabetes. The extracted latent representations are then fed to an interpretable clustering pipeline involving cutting-edge algorithms for explainable machine learning that led us to find two T2D subtypes presenting significant difference in both biological and clinical picture. Finally, we present possible technical refinements and a new approach that could further improve the performance of the model and permit a more accurate and biologically meaningful subdivision of diabetic patients, with several possible application in the field of personalized medicine.

Il diabete di tipo 2 (T2D) è una malattia estremamente eterogenea, a causa dei differenti quadri clinici, risposte ai farmaci e progressioni della malattia in diversi pazienti. Questo studio mira a sfruttare le informazioni sui processi biologici attivi presenti nell'espressione delle proteine del siero sanguigno per spiegare questa eterogeneità attraverso l'identificazione di diversi sottotipi di T2D. Per raggiungere questo obiettivo abbiamo adattato un già esistente Autoencoder variazionale sviluppato per la trascrittomica a singola cellula per creare ProteoVAE, un modello biologicamente interpretabile in grado di mappare l'espressione proteica in rappresentazioni latenti dell'attività di pathway molecolari, sfruttando le conoscenze pregresse sulle relazioni tra questi pathway e le proteine che li compongono. Per validare il modello, abbiamo utilizzato accurati test statistici e una revisione della letteratura per condurre una prova di concetto, la quale ha mostrato come le caratteristiche latenti estratte dal modello rappresentino di fatto specifici processi biologici, alcuni dei quali strettamente correlati al diabete. Le rappresentazioni latenti estratte sono state quindi utilizzate in una pipeline di clustering interpretabile che impiega algoritmi all'avanguardia di Machine Learning spiegabile, che ci ha condotto all'identificazione di due sottotipi di T2D che presentano differenze significative sia sul piano biologico che sul piano clinico. Infine, presentiamo possibili miglioramenti tecnici e un nuovo approccio che potrebbe ulteriormente incrementare le prestazioni del modello e permettere una suddivisione più accurata e biologicamente significativa dei pazienti diabetici, con numerose possibili applicazioni nel campo della medicina personalizzata.

ProteoVAE: a biologically informed Variational AutoEncoder to research new subtypes in type 2 diabetes

MASTROIANNI, PAOLO SERAFINO
2024/2025

Abstract

Type 2 diabetes (T2D) is an extremely heterogeneous disease, due to different clinical pictures, drug response and disease progression among patients. This study aims to leverage the information about the ongoing biological processes present in the expression of blood serum proteins to explain this heterogeneity by identifying different subtypes of T2D. To perform this task we adapted a previously existing Variational Autoencoder developed for single cell transcriptomics to build ProteoVAE, a biologically interpretable model that can map protein expression into latent representations of the activity of molecular pathways by leveraging the prior knowledge regarding the relationship between these pathways and their proteins. To validate this framework, we exploited accurate statistical tests and literature review to perform a proof of concept, which showed that the latent features extracted from the model represent, in fact, specific biological processes, some of them strictly related to diabetes. The extracted latent representations are then fed to an interpretable clustering pipeline involving cutting-edge algorithms for explainable machine learning that led us to find two T2D subtypes presenting significant difference in both biological and clinical picture. Finally, we present possible technical refinements and a new approach that could further improve the performance of the model and permit a more accurate and biologically meaningful subdivision of diabetic patients, with several possible application in the field of personalized medicine.
MASSI, MICHELA CARLOTTA
ING - Scuola di Ingegneria Industriale e dell'Informazione
10-dic-2025
2024/2025
Il diabete di tipo 2 (T2D) è una malattia estremamente eterogenea, a causa dei differenti quadri clinici, risposte ai farmaci e progressioni della malattia in diversi pazienti. Questo studio mira a sfruttare le informazioni sui processi biologici attivi presenti nell'espressione delle proteine del siero sanguigno per spiegare questa eterogeneità attraverso l'identificazione di diversi sottotipi di T2D. Per raggiungere questo obiettivo abbiamo adattato un già esistente Autoencoder variazionale sviluppato per la trascrittomica a singola cellula per creare ProteoVAE, un modello biologicamente interpretabile in grado di mappare l'espressione proteica in rappresentazioni latenti dell'attività di pathway molecolari, sfruttando le conoscenze pregresse sulle relazioni tra questi pathway e le proteine che li compongono. Per validare il modello, abbiamo utilizzato accurati test statistici e una revisione della letteratura per condurre una prova di concetto, la quale ha mostrato come le caratteristiche latenti estratte dal modello rappresentino di fatto specifici processi biologici, alcuni dei quali strettamente correlati al diabete. Le rappresentazioni latenti estratte sono state quindi utilizzate in una pipeline di clustering interpretabile che impiega algoritmi all'avanguardia di Machine Learning spiegabile, che ci ha condotto all'identificazione di due sottotipi di T2D che presentano differenze significative sia sul piano biologico che sul piano clinico. Infine, presentiamo possibili miglioramenti tecnici e un nuovo approccio che potrebbe ulteriormente incrementare le prestazioni del modello e permettere una suddivisione più accurata e biologicamente significativa dei pazienti diabetici, con numerose possibili applicazioni nel campo della medicina personalizzata.
File allegati
File Dimensione Formato  
2025_12_Mastroianni_Tesi.pdf

accessibile in internet per tutti

Descrizione: Tesi
Dimensione 10.23 MB
Formato Adobe PDF
10.23 MB Adobe PDF Visualizza/Apri
2025_12_Mastroianni_Executive Summary.pdf

accessibile in internet per tutti

Descrizione: Executive Sumary
Dimensione 1.98 MB
Formato Adobe PDF
1.98 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/246349