Accurately predicting the cause of death (COD) is essential for improving public health surveillance, allocating healthcare resources, and supporting timely interventions. COD prediction involves estimating an individual’s most likely cause of death based on their clinical history. However, this task remains challenging due to the complexity of patient trajectories, missing or incomplete records, and the limitations of existing predictive models. To address these challenges, this thesis presents a dual modelling framework combining machine learning on structured data with transformer-based models adapted for clinical prediction. Using a large longitudinal dataset from Regione Lombardia comprising over 370,000 patient histories—including diagnoses, hospitalisations, medications, and ICD-coded causes of death—we developed two pipelines: one based on LightGBM using one-hot encoded features, and another using ClinicalBERT, which processes diagnosis sequences translated into natural language. In the binary classification task to predict cardiovascular-related deaths, LightGBM achieved a mean AUROC of 0.8077. In the multiclass setting, LightGBM estimated 119 COD categories with consistent performance. ClinicalBERT, trained on prompt-structured diagnosis histories, showed promising accuracy and top-3 prediction capabilities, especially in more nuanced clinical scenarios. These findings suggest that combining structured and language models can improve predictive coverage across frequent and rare COD categories. The models were developed in offline, resource-constrained conditions, reinforcing their applicability to real-world healthcare systems where privacy and infrastructure limitations are critical.

Prevedere con precisione la causa della morte (COD) è essenziale per migliorare la sorveglianza della salute pubblica, allocare le risorse sanitarie e supportare interventi tempestivi. La previsione della COD comporta la stima della causa più probabile di morte di un individuo sulla base della sua storia clinica. Tuttavia, questo compito rimane complesso a causa della grande variabilitá della storia clinica dei pazienti, delle cartelle cliniche incomplete o mancanti e dei limiti dei modelli predittivi esistenti. Per affrontare queste criticità, si presenta un framework di modellazione che combina il machine learning su dati strutturati con modelli basati su trasformer adattati alla previsione clinica. Utilizzando un dataset reale della Regione Lombardia che comprende informazioni su oltre 370.000 pazienti, tra cui diagnosi, ricoveri ospedalieri, farmaci e cause di morte codificate internazionalmente, sono state sviluppate due pipeline. La prima basata su alberi di classificazione utilizzando dati tabulariche, la seconda utilizza ClinicalBERT, che elabora sequenze di diagnosi tradotte in linguaggio naturale. Nel compito di classificazione binaria per prevedere i decessi causati da malattie cardiovascolari, LightGBM ha raggiunto un AUROC medio di 0,8077. In un contesto multiclass, LightGBM ha stimato 119 categorie di COD con prestazioni costanti. ClinicalBERT, allenato su anamnesi diagnostiche strutturate in prompt, ha mostrato un'accuratezza promettente e buone capacità di previsione. Questi risultati suggeriscono che la combinazione di modelli strutturati e modelli linguistici può migliorare la copertura predittiva sia per le categorie di COD frequenti che per quelle rare. Inoltre, i modelli sono stati sviluppati in condizioni offline e con risorse computazionali limitate, rafforzando la loro applicabilità ai sistemi sanitari reali, dove la privacy e le limitazioni infrastrutturali sono all’ordine del giorno.

Prediction and learning of disease patterns leading to death via generative models

KHALID FATHELRAHMAN ABDELGADIR ALEMAM
2024/2025

Abstract

Accurately predicting the cause of death (COD) is essential for improving public health surveillance, allocating healthcare resources, and supporting timely interventions. COD prediction involves estimating an individual’s most likely cause of death based on their clinical history. However, this task remains challenging due to the complexity of patient trajectories, missing or incomplete records, and the limitations of existing predictive models. To address these challenges, this thesis presents a dual modelling framework combining machine learning on structured data with transformer-based models adapted for clinical prediction. Using a large longitudinal dataset from Regione Lombardia comprising over 370,000 patient histories—including diagnoses, hospitalisations, medications, and ICD-coded causes of death—we developed two pipelines: one based on LightGBM using one-hot encoded features, and another using ClinicalBERT, which processes diagnosis sequences translated into natural language. In the binary classification task to predict cardiovascular-related deaths, LightGBM achieved a mean AUROC of 0.8077. In the multiclass setting, LightGBM estimated 119 COD categories with consistent performance. ClinicalBERT, trained on prompt-structured diagnosis histories, showed promising accuracy and top-3 prediction capabilities, especially in more nuanced clinical scenarios. These findings suggest that combining structured and language models can improve predictive coverage across frequent and rare COD categories. The models were developed in offline, resource-constrained conditions, reinforcing their applicability to real-world healthcare systems where privacy and infrastructure limitations are critical.
CORBETTA, ANDREA
LOGAN, KATHERINE
TORRI, VITTORIO
ING - Scuola di Ingegneria Industriale e dell'Informazione
22-lug-2025
2024/2025
Prevedere con precisione la causa della morte (COD) è essenziale per migliorare la sorveglianza della salute pubblica, allocare le risorse sanitarie e supportare interventi tempestivi. La previsione della COD comporta la stima della causa più probabile di morte di un individuo sulla base della sua storia clinica. Tuttavia, questo compito rimane complesso a causa della grande variabilitá della storia clinica dei pazienti, delle cartelle cliniche incomplete o mancanti e dei limiti dei modelli predittivi esistenti. Per affrontare queste criticità, si presenta un framework di modellazione che combina il machine learning su dati strutturati con modelli basati su trasformer adattati alla previsione clinica. Utilizzando un dataset reale della Regione Lombardia che comprende informazioni su oltre 370.000 pazienti, tra cui diagnosi, ricoveri ospedalieri, farmaci e cause di morte codificate internazionalmente, sono state sviluppate due pipeline. La prima basata su alberi di classificazione utilizzando dati tabulariche, la seconda utilizza ClinicalBERT, che elabora sequenze di diagnosi tradotte in linguaggio naturale. Nel compito di classificazione binaria per prevedere i decessi causati da malattie cardiovascolari, LightGBM ha raggiunto un AUROC medio di 0,8077. In un contesto multiclass, LightGBM ha stimato 119 categorie di COD con prestazioni costanti. ClinicalBERT, allenato su anamnesi diagnostiche strutturate in prompt, ha mostrato un'accuratezza promettente e buone capacità di previsione. Questi risultati suggeriscono che la combinazione di modelli strutturati e modelli linguistici può migliorare la copertura predittiva sia per le categorie di COD frequenti che per quelle rare. Inoltre, i modelli sono stati sviluppati in condizioni offline e con risorse computazionali limitate, rafforzando la loro applicabilità ai sistemi sanitari reali, dove la privacy e le limitazioni infrastrutturali sono all’ordine del giorno.
File allegati
File Dimensione Formato  
2025_7_Alemam.pdf

accessibile in internet per tutti

Descrizione: Text of thesis
Dimensione 3.15 MB
Formato Adobe PDF
3.15 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/240775