Statistical analysis of large-scale population-based proteomics datasets is burdened today by the presence of technical confounders at various stages in the data collection, processing, and measurement cycles. In particular, to build insightful models statisticians require large $n$ proteomic datasets which are currently assembled from multiple diverse sources where there may be markedly different qualities in the samples. Solutions for the removal of these "batch effects" from the dataset exist but are limited in their applicability, implementation, and theoretical underpinnings. Within this context, this thesis aims at introducing a new alternative method for preprocessing proteomic datasets by borrowing from ideas in the variational autoencoder and deep learning. Specifically, we propose the Guided Variational AutoEncoder (GVAE) to remove batch effects not from the original feature space, but from a low-dimensional distributional space, and to perform statistical analyses on the resulting embedding representation of the data. The GVAE produces "embeddings" (i.e., projections into latent space) whose dimensions are independent of each other, and in which a predefined subset of these dimensions is guided to collect all the signal related to the counfounders that the practitioner wishes to be removed. In this way, the guided latent dimensions can be removed, leaving a representation of the sample cleaned of technical confounders.In order to illustrate the mechanism of the GVAE two large-scale proteomic cohorts are employed; the BELIEVE and NATE cohorts. Using the GVAE we show that it is indeed possible to distill semantic qualities of the data into specially designed latent dimensions in an organized fashion. On the NATE cohort we learn a new low-dimensional representation of the proteomic data where selected embedding dimensions encode for non-overlapping subsets of proteins related to gender. On the BELIEVE cohort we highlight the batch-removal properties of the model and show that the model's outputs are competitive with currently-employed procedures. Furthermore, the use of external databases and APIs for the study of protein interactions shows that the learned BELIEVE latents represent groups of proteins clustering around distinct biological functional pathways.

L’analisi statistica su larga scala di dati proteomici è resa più complessa dall’esistenza di confondimenti tecnici derivanti dalle diverse fasi dei cicli di raccolta, elaborazione e misurazione del dato stesso. In particolare, vista l’enorme dimensionalità del dato proteomico moderno, per costruire modelli efficaci è necessario raccogliere grandi set di dati. Una soluzione è quella di aggregare diverse fonti, dove però i campioni possono presentare caratteristiche molto diverse anche solo per via dei confondimenti tecnici sopra descritti. Esistono soluzioni per la rimozione di questi "effetti batch" dal set di dati, ma sono limitate in termini di applicabilità, implementazione e fondamenti teorici. In questo contesto, questa tesi mira a introdurre un nuovo metodo alternativo per la preelaborazione dei ì dati proteomici, prendendo in prestito le idee dell’autoencoder variazionale e del deep learning. In particolare, proponiamo il Guided Variational AutoEncoder (GVAE) per rimuovere gli effetti batch non dallo spazio delle variabili originali, ma da uno spazio a dimensionalità ridotta (o spazio latente), dove eseguire le analisi statistiche desiderate. La definizione di GVAE risulta in “embeddings” (i.e. proiezioni nello spazio latente) le cui dimensioni sono indipendenti tra loro, e in cui un subset predefinito di queste dimensioni è guidato a raccogliere tutto il segnale legato ai confondimenti che vogliono essere rimossi. In questo modo, le dimensioni latenti guidate possono essere rimosse, lasciando una rappresentazione del campione ripulita dai confondimenti tecnici. Per illustrare il meccanismo del GVAE sono state utilizzate due coorti proteomiche su larga scala: le coorti BELIEVE e NATE. Utilizzando il GVAE dimostriamo che è effettivamente possibile distillare le qualità semantiche dei dati in dimensioni latenti appositamente progettate in modo organizzato. Nella coorte NATE apprendiamo una nuova rappresentazione a bassa dimensione dei dati proteomici, imponendo ad una delle dimensioni latenti di codificare un sottoinsieme di proteine correlate al genere. Sulla coorte BELIEVE abbiamo evidenziato le proprietà di rimozione dei confondimenti, dimostrando che i risultati del modello sono competitivi con le procedure attualmente utilizzate. Inoltre, l’uso di database esterni e di API per lo studio delle interazioni proteiche dimostra che le dimensioni latenti apprese su BELIEVE rappresentano gruppi di proteine con distinte proprietà funzionali da un punto di vista biologico.

Guided variational autoencoders for semantic proteomic applications

Nethercott, Nathaniel Robert James
2022/2023

Abstract

Statistical analysis of large-scale population-based proteomics datasets is burdened today by the presence of technical confounders at various stages in the data collection, processing, and measurement cycles. In particular, to build insightful models statisticians require large $n$ proteomic datasets which are currently assembled from multiple diverse sources where there may be markedly different qualities in the samples. Solutions for the removal of these "batch effects" from the dataset exist but are limited in their applicability, implementation, and theoretical underpinnings. Within this context, this thesis aims at introducing a new alternative method for preprocessing proteomic datasets by borrowing from ideas in the variational autoencoder and deep learning. Specifically, we propose the Guided Variational AutoEncoder (GVAE) to remove batch effects not from the original feature space, but from a low-dimensional distributional space, and to perform statistical analyses on the resulting embedding representation of the data. The GVAE produces "embeddings" (i.e., projections into latent space) whose dimensions are independent of each other, and in which a predefined subset of these dimensions is guided to collect all the signal related to the counfounders that the practitioner wishes to be removed. In this way, the guided latent dimensions can be removed, leaving a representation of the sample cleaned of technical confounders.In order to illustrate the mechanism of the GVAE two large-scale proteomic cohorts are employed; the BELIEVE and NATE cohorts. Using the GVAE we show that it is indeed possible to distill semantic qualities of the data into specially designed latent dimensions in an organized fashion. On the NATE cohort we learn a new low-dimensional representation of the proteomic data where selected embedding dimensions encode for non-overlapping subsets of proteins related to gender. On the BELIEVE cohort we highlight the batch-removal properties of the model and show that the model's outputs are competitive with currently-employed procedures. Furthermore, the use of external databases and APIs for the study of protein interactions shows that the learned BELIEVE latents represent groups of proteins clustering around distinct biological functional pathways.
MASSI, MICHELA
ING - Scuola di Ingegneria Industriale e dell'Informazione
9-apr-2024
2022/2023
L’analisi statistica su larga scala di dati proteomici è resa più complessa dall’esistenza di confondimenti tecnici derivanti dalle diverse fasi dei cicli di raccolta, elaborazione e misurazione del dato stesso. In particolare, vista l’enorme dimensionalità del dato proteomico moderno, per costruire modelli efficaci è necessario raccogliere grandi set di dati. Una soluzione è quella di aggregare diverse fonti, dove però i campioni possono presentare caratteristiche molto diverse anche solo per via dei confondimenti tecnici sopra descritti. Esistono soluzioni per la rimozione di questi "effetti batch" dal set di dati, ma sono limitate in termini di applicabilità, implementazione e fondamenti teorici. In questo contesto, questa tesi mira a introdurre un nuovo metodo alternativo per la preelaborazione dei ì dati proteomici, prendendo in prestito le idee dell’autoencoder variazionale e del deep learning. In particolare, proponiamo il Guided Variational AutoEncoder (GVAE) per rimuovere gli effetti batch non dallo spazio delle variabili originali, ma da uno spazio a dimensionalità ridotta (o spazio latente), dove eseguire le analisi statistiche desiderate. La definizione di GVAE risulta in “embeddings” (i.e. proiezioni nello spazio latente) le cui dimensioni sono indipendenti tra loro, e in cui un subset predefinito di queste dimensioni è guidato a raccogliere tutto il segnale legato ai confondimenti che vogliono essere rimossi. In questo modo, le dimensioni latenti guidate possono essere rimosse, lasciando una rappresentazione del campione ripulita dai confondimenti tecnici. Per illustrare il meccanismo del GVAE sono state utilizzate due coorti proteomiche su larga scala: le coorti BELIEVE e NATE. Utilizzando il GVAE dimostriamo che è effettivamente possibile distillare le qualità semantiche dei dati in dimensioni latenti appositamente progettate in modo organizzato. Nella coorte NATE apprendiamo una nuova rappresentazione a bassa dimensione dei dati proteomici, imponendo ad una delle dimensioni latenti di codificare un sottoinsieme di proteine correlate al genere. Sulla coorte BELIEVE abbiamo evidenziato le proprietà di rimozione dei confondimenti, dimostrando che i risultati del modello sono competitivi con le procedure attualmente utilizzate. Inoltre, l’uso di database esterni e di API per lo studio delle interazioni proteiche dimostra che le dimensioni latenti apprese su BELIEVE rappresentano gruppi di proteine con distinte proprietà funzionali da un punto di vista biologico.
File allegati
File Dimensione Formato  
2024_04_Nethercott_Thesis_01.pdf

accessibile in internet per tutti

Descrizione: thesis .pdf file
Dimensione 6.07 MB
Formato Adobe PDF
6.07 MB Adobe PDF Visualizza/Apri
2024_04_Nethercott_ExecutiveSummary_02.pdf

accessibile in internet per tutti

Descrizione: executive summary .pdf file
Dimensione 471.52 kB
Formato Adobe PDF
471.52 kB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/217792