In this thesis we have developed an effective methodology that allows us to introduce the information contained in particular time varying variables - the compensators of marked counting processes - into survival models. The high generality of these processes, widely used to model recurrent events, allows us to capture and model complex phenomena and quantify their contribution to other processes (e.g., survival) for which we want to make forecasts. The proposed methodology consists in the reconstruction of the hazard function of the marked counting process that describes the time-varying event of interest, to then summarise it through the dimensionality reduction allowed by Functional Principal Components Analysis (FPCA). The new variables thus obtained are then introduced into a traditional forecasting model for a second process, which is supposed to be dependent and influenced by the one for which the described procedure was performed. Among other things, the introduction of time varying variables linked to the realisation of marked stochastic processes allows to model self-exciting behaviours, for which the occurrence of events in the past increases the probability of a new event. We applied this methodology to the analysis of data provided by Regione Lombardia in relation to the survival and use of drugs from patients suffering from Heart Failure. Specifically, we reconstructed the hazards related to the processes of rehospitalisation and purchase of some categories of drugs, and we quantified their effect on the long-term survival of patients. For survival modelling, in addition to the classic Cox-type regression model we considered two survival models based on Deep Learning (DeepHit and DRSA in the following) which, unlike the Cox-type regression model model, do not make assumptions about the form of the generative process of patients’ survival. In all these models, we inserted the variables relative to the processes of rehospitalisations and purchase of drugs in the form of the scores obtained through the FPCA. Finally, we compared the performance of the three different models to highlight the strengths and weaknesses of each one and to provide operational indications to potential users. All the analyses are performed with R and PYTHON programming languages, and the code is available at the repository https://github.com/ davide-burba/thesis.

In questa tesi abbiamo sviluppato un’efficace metodologia che consente di introdurre l’informazione contenuta in particolari variabili tempo varianti - i compensatori dei processi di conteggio marcati - all’interno di modelli di sopravvivenza. L’elevata generalità di questi processi, ampiamente utilizzati per modellare eventi ricorrenti, permette di cogliere e modellare fenomeni complessi e quantificarne il contributo su altri processi (ad esempio, la sopravvivenza) per i quali si desidera fare previsione. La metodologia proposta consiste nella ricostruzione della hazard function del processo di conteggio marcato che descrive l’evento tempo-variante di interesse, per poi riassumerla tramite la riduzione dimensionale consentita dall’Analisi delle Componenti Principali Funzionali (FPCA). Le nuove variabili così ottenute vengono poi introdotte in un modello previsivo tradizionale per un secondo processo, che si suppone dipendente e influenzato da quello per cui si è eseguita la procedura descritta. L’introduzione di variabili tempo varianti legate alla realizzazione di processi stocastici marcati consente tra le altre cose di modellare comportamenti auto-eccitanti, per i quali il verificarsi di eventi nel passato aumenta la probabilità di un nuovo evento. Abbiamo applicato questa metodologia all’analisi di dati forniti da Regione Lombardia in relazione alla sopravvivenza e all’utilizzo di farmaci di pazienti affetti da Scompenso Cardiaco. Nello specifico, abbiamo ricostruito le hazard relative ai processi di riospedalizzazione e acquisto di alcune categorie di farmaci e abbiamo quantificato il loro effetto sulla sopravvivenza di lungo periodo dei pazienti. Per la modellazione della sopravvivenza, oltre al classico modello di Cox, abbiamo considerato due modelli di sopravvivenza basati su approcci di tipo Deep Learning (DeepHit e DRSA nel seguito) i quali, diversamente dal modello di Cox, non fanno assunzioni sulla forma del processo generativo della sopravvivenza dei pazienti. In tutti questi modelli abbiamo inserito le variabili relative ai processi di riospedalizzazione e acquisto dei farmaci sotto forma degli scores ottenuti dalla FPCA. Infine, abbiamo confrontato le prestazioni dei tre diversi modelli per evidenziare punti di forza e di debolezza di ciascuno e dare indicazioni operative ai potenziali utilizzatori. Tutte le analisi sono eseguite con i linguaggi di programmazione R e PYTHON, e il codice è disponibile alla repository https://github.com/davide-burba/ thesis.

Performing survival analysis via functional cox-type regression and a machine learning approach : an application to heart failure patients

BURBA, DAVIDE
2018/2019

Abstract

In this thesis we have developed an effective methodology that allows us to introduce the information contained in particular time varying variables - the compensators of marked counting processes - into survival models. The high generality of these processes, widely used to model recurrent events, allows us to capture and model complex phenomena and quantify their contribution to other processes (e.g., survival) for which we want to make forecasts. The proposed methodology consists in the reconstruction of the hazard function of the marked counting process that describes the time-varying event of interest, to then summarise it through the dimensionality reduction allowed by Functional Principal Components Analysis (FPCA). The new variables thus obtained are then introduced into a traditional forecasting model for a second process, which is supposed to be dependent and influenced by the one for which the described procedure was performed. Among other things, the introduction of time varying variables linked to the realisation of marked stochastic processes allows to model self-exciting behaviours, for which the occurrence of events in the past increases the probability of a new event. We applied this methodology to the analysis of data provided by Regione Lombardia in relation to the survival and use of drugs from patients suffering from Heart Failure. Specifically, we reconstructed the hazards related to the processes of rehospitalisation and purchase of some categories of drugs, and we quantified their effect on the long-term survival of patients. For survival modelling, in addition to the classic Cox-type regression model we considered two survival models based on Deep Learning (DeepHit and DRSA in the following) which, unlike the Cox-type regression model model, do not make assumptions about the form of the generative process of patients’ survival. In all these models, we inserted the variables relative to the processes of rehospitalisations and purchase of drugs in the form of the scores obtained through the FPCA. Finally, we compared the performance of the three different models to highlight the strengths and weaknesses of each one and to provide operational indications to potential users. All the analyses are performed with R and PYTHON programming languages, and the code is available at the repository https://github.com/ davide-burba/thesis.
ING - Scuola di Ingegneria Industriale e dell'Informazione
25-lug-2019
2018/2019
In questa tesi abbiamo sviluppato un’efficace metodologia che consente di introdurre l’informazione contenuta in particolari variabili tempo varianti - i compensatori dei processi di conteggio marcati - all’interno di modelli di sopravvivenza. L’elevata generalità di questi processi, ampiamente utilizzati per modellare eventi ricorrenti, permette di cogliere e modellare fenomeni complessi e quantificarne il contributo su altri processi (ad esempio, la sopravvivenza) per i quali si desidera fare previsione. La metodologia proposta consiste nella ricostruzione della hazard function del processo di conteggio marcato che descrive l’evento tempo-variante di interesse, per poi riassumerla tramite la riduzione dimensionale consentita dall’Analisi delle Componenti Principali Funzionali (FPCA). Le nuove variabili così ottenute vengono poi introdotte in un modello previsivo tradizionale per un secondo processo, che si suppone dipendente e influenzato da quello per cui si è eseguita la procedura descritta. L’introduzione di variabili tempo varianti legate alla realizzazione di processi stocastici marcati consente tra le altre cose di modellare comportamenti auto-eccitanti, per i quali il verificarsi di eventi nel passato aumenta la probabilità di un nuovo evento. Abbiamo applicato questa metodologia all’analisi di dati forniti da Regione Lombardia in relazione alla sopravvivenza e all’utilizzo di farmaci di pazienti affetti da Scompenso Cardiaco. Nello specifico, abbiamo ricostruito le hazard relative ai processi di riospedalizzazione e acquisto di alcune categorie di farmaci e abbiamo quantificato il loro effetto sulla sopravvivenza di lungo periodo dei pazienti. Per la modellazione della sopravvivenza, oltre al classico modello di Cox, abbiamo considerato due modelli di sopravvivenza basati su approcci di tipo Deep Learning (DeepHit e DRSA nel seguito) i quali, diversamente dal modello di Cox, non fanno assunzioni sulla forma del processo generativo della sopravvivenza dei pazienti. In tutti questi modelli abbiamo inserito le variabili relative ai processi di riospedalizzazione e acquisto dei farmaci sotto forma degli scores ottenuti dalla FPCA. Infine, abbiamo confrontato le prestazioni dei tre diversi modelli per evidenziare punti di forza e di debolezza di ciascuno e dare indicazioni operative ai potenziali utilizzatori. Tutte le analisi sono eseguite con i linguaggi di programmazione R e PYTHON, e il codice è disponibile alla repository https://github.com/davide-burba/ thesis.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
2019_07_Burba.pdf

accessibile in internet per tutti

Descrizione: Testo della tesi
Dimensione 5.31 MB
Formato Adobe PDF
5.31 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/148897