Finite mixture are a very flexible class of model for representing heterogeneous data whose distribution deviates from the Gaussian one. In the present work, we apply Bayesian Gaussian mixture models to experimental data obtained at the Center for Molecular Medicine Norway (Oslo) from a cohort of 16 Chronic Lymphocytic Leukemia (CLL) patients and 11 control cases, analyzing the anomalous activations of 19 proteins known to be important in CLL. The challenge of this work comes from the strong heterogeneity among the data due to the variability of clinical behavior, di erent biological features of the disease and various drugs used, the small sample size slightly larger than the number of features analyzed. Firstly, we de fine the prior distributions for the Gaussian mixture and their related hyperparameters which are chosen using a robustness analysis. We perform MCMC sampling via JAGS software and we cluster the data selecting the partition minimizing the Binder loss function (Binder, 1978). Furthermore, we estimate the predictive distribution of the features analyzed to measure the model performance in terms of predictability. Finally, we investigate the functional interactions among proteins with a Bayesian graphical model in order to describe the hidden network that links the proteins.

I modelli mistura sono una classe molto essibile di modelli che permette di rappresentare dati eterogenei le cui distribuzioni di probabilità sono lontane da quella Gaussiana. In questo lavoro applichiamo un modello mistura Bayesiano su dati sperimentali, forniti dal Center for Molecular Medicine Norway (Oslo), relativi alle attivazioni anomale di 19 proteine in 16 pazienti affetti da Chronic Lymphocytic Leukemia (CLL) e 11 casi controllo. Queste proteine sono state selezionate in letteratura, per il loro ruolo nello sviluppo della malattia. In questo lavoro abbiamo dovuto affrontare la forte eterogeneità dei dati dovuta alla variabilità delle caratteristiche cliniche e biologiche della malattia, all'impiego di diversi strumenti terapeutici. Inoltre la ridotta dimensione del campione e il numero di proteine leggermente maggiore del numero di osservazioni, rendono la messa a punto del modello molto delicata. Per prima cosa, abbiamo definito le distribuzioni a priori per i parametri della mistura Gaussiana con i relativi iperparametri, scelti in seguito ad un'analisi di robustezza. In secondo luogo, abbiamo estratto un campione MCMC della posterior grazie al software JAGS e abbiamo selezionato la partizione che minimizza la funzione di perdita di Binder (Binder, 1978). Inoltre, abbiamo stimato la distribuzione predittiva delle proteine analizzate per poter misurare le performance del modello in termini predittivi. Infine, abbiamo analizzato le interazioni funzionali tra le proteine con un modello grafico Bayesiano, con lo scopo di fare inferenza sulla struttura di rete che lega le attivazioni delle proteine.

Bayesian mixture models for the analysis of pFLOW data : an application to a chronic lymphocytic leukemia dataset

COMINELLI, MARTA
2017/2018

Abstract

Finite mixture are a very flexible class of model for representing heterogeneous data whose distribution deviates from the Gaussian one. In the present work, we apply Bayesian Gaussian mixture models to experimental data obtained at the Center for Molecular Medicine Norway (Oslo) from a cohort of 16 Chronic Lymphocytic Leukemia (CLL) patients and 11 control cases, analyzing the anomalous activations of 19 proteins known to be important in CLL. The challenge of this work comes from the strong heterogeneity among the data due to the variability of clinical behavior, di erent biological features of the disease and various drugs used, the small sample size slightly larger than the number of features analyzed. Firstly, we de fine the prior distributions for the Gaussian mixture and their related hyperparameters which are chosen using a robustness analysis. We perform MCMC sampling via JAGS software and we cluster the data selecting the partition minimizing the Binder loss function (Binder, 1978). Furthermore, we estimate the predictive distribution of the features analyzed to measure the model performance in terms of predictability. Finally, we investigate the functional interactions among proteins with a Bayesian graphical model in order to describe the hidden network that links the proteins.
CREMASCHI, ANDREA
ING - Scuola di Ingegneria Industriale e dell'Informazione
25-lug-2018
2017/2018
I modelli mistura sono una classe molto essibile di modelli che permette di rappresentare dati eterogenei le cui distribuzioni di probabilità sono lontane da quella Gaussiana. In questo lavoro applichiamo un modello mistura Bayesiano su dati sperimentali, forniti dal Center for Molecular Medicine Norway (Oslo), relativi alle attivazioni anomale di 19 proteine in 16 pazienti affetti da Chronic Lymphocytic Leukemia (CLL) e 11 casi controllo. Queste proteine sono state selezionate in letteratura, per il loro ruolo nello sviluppo della malattia. In questo lavoro abbiamo dovuto affrontare la forte eterogeneità dei dati dovuta alla variabilità delle caratteristiche cliniche e biologiche della malattia, all'impiego di diversi strumenti terapeutici. Inoltre la ridotta dimensione del campione e il numero di proteine leggermente maggiore del numero di osservazioni, rendono la messa a punto del modello molto delicata. Per prima cosa, abbiamo definito le distribuzioni a priori per i parametri della mistura Gaussiana con i relativi iperparametri, scelti in seguito ad un'analisi di robustezza. In secondo luogo, abbiamo estratto un campione MCMC della posterior grazie al software JAGS e abbiamo selezionato la partizione che minimizza la funzione di perdita di Binder (Binder, 1978). Inoltre, abbiamo stimato la distribuzione predittiva delle proteine analizzate per poter misurare le performance del modello in termini predittivi. Infine, abbiamo analizzato le interazioni funzionali tra le proteine con un modello grafico Bayesiano, con lo scopo di fare inferenza sulla struttura di rete che lega le attivazioni delle proteine.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
tesi_magistrale.pdf

non accessibile

Descrizione: Testo della tesi
Dimensione 3.54 MB
Formato Adobe PDF
3.54 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/141757