Privacy preserving survival prediction with graph neural networks

In the development process of novel cancer drugs, one important aspect is to identify patient populations with a high risk of early death so that resources can be focused on patients with the highest medical unmet need. Many cancer types are heterogeneous and there is a need to identify patients with aggressive diseases, meaning a high risk of early death, compared to patients with indolent diseases, meaning a low risk of early death. Predictive modeling can be a useful tool for risk stratification in clinical practice, enabling healthcare providers to treat high-risk patients early and progressively, while applying a less aggressive watch-and-wait strategy for patients with a lower risk of death. This is important from a clinical perspective, but also a health economic perspective since society has limited resources, and costly drugs should be given to patients that can benefit the most from a specific treatment. Thus, the goal of predictive modeling is to ensure that the right patient will have access to the right drug at the right time. In the era of personalized medicine, AI applied to high-quality data will most likely play an important role and many techniques have been developed. In particular, GNNs are a promising tool since it captures the complexity of high dimensional data modeled as a graph. In this work, we have applied NRL techniques to predict survival, using pseudonymized patient-level data from national health registries in Sweden. Over the last decade, more health data of increased complexity has become available for research, and therefore precision medicine could take advantage of this trend by bringing better healthcare to the patients. However, it is important to develop reliable prediction models that not only show high performances but take into consideration privacy, avoiding any leakage of personal information. The present study contributes novel insights related to GNN performance in different survival prediction tasks, using population-based unique nationwide data. Furthermore, we also explored how privacy methods impact the performance of the models when applied to the same dataset. We conducted a set of experiments across 6 dataset using 8 models measuring both AUC, Precision and Recall. Our evaluation results show that Graph Neural Networks were able to reach accuracy performance close to the models used in clinical practice and constantly outperformed the traditional machine learning methods. Further more, the study demonstrated how graph modeling, when applied based on knowledge from clinical experts, performed well and showed high resiliency to the noise introduced for privacy preservation.

Nel processo di sviluppo di nuovi farmaci per il cancro, un aspetto importante è quello di identificare le popolazioni di pazienti con un alto rischio di morte precoce in modo che le risorse possano essere concentrate sui pazienti con il più alto bisogno medico. Molti tipi di cancro sono eterogenei e c'è la necessità di identificare i pazienti con malattie aggressive, che significano un alto rischio di morte precoce, rispetto ai pazienti con malattie indolenti, che significano un basso rischio di morte precoce. La modellazione predittiva può essere uno strumento utile per la stratificazione del rischio nella pratica clinica, consentendo agli operatori sanitari di trattare precocemente e progressivamente i pazienti ad alto rischio, mentre si applica una strategia meno aggressiva di osservazione e attesa per i pazienti con un rischio di morte inferiore. Questo è importante da un punto di vista clinico, ma anche da un punto di vista economico sanitario, poichè la società ha risorse limitate e i farmaci costosi dovrebbero essere somministrati ai pazienti che possono beneficiare maggiormente di un trattamento specifico. Quindi, l'obiettivo della modellazione predittiva è quello di garantire che il paziente giusto abbia accesso al farmaco giusto al momento giusto. Nell'era della medicina personalizzata, l'intelligenza artificiale applicata a dati di alta qualità avrà molto probabilmente un ruolo importante e molte tecniche sono state sviluppate. In particolare, GNN è uno strumento promettente poichè cattura la complessità dei dati modellati come un grafo. In questo lavoro, abbiamo applicato tecniche di NRL per prevedere la sopravvivenza, utilizzando dati individuali pseudonimizzati provenienti da registri sanitari nazionali Svedesi. Nell'ultimo decennio, sempre più dati sanitari sono diventati disponibili per la ricerca, dando vantaggio all'applicazione della medicina di precisione, portando una migliore assistenza sanitaria ai pazienti. Tuttavia, è importante sviluppare modelli predittivi affidabili che non solo mostrino alte prestazioni, ma che tengano in considerazione la privacy, evitando qualsiasi perdita di informazioni personali. Il presente studio contribuisce con nuove intuizioni relative alle prestazioni di GNNs in diverse sfumature di survival prediction, utilizzando dati nazionali unici basati sulla popolazione svedese. Inoltre, abbiamo anche esplorato come i metodi di privacy impattano le prestazioni dei modelli quando applicati allo stesso set di dati. Abbiamo condotto una serie di esperimenti su 6 dataset utilizzando 8 modelli misurando AUC, precision and recall. I nostri risultati mostrano che le Graph Neural Networks sono state in grado di raggiungere prestazioni vicine ai modelli utilizzati nella pratica clinica e hanno costantemente superato i tradizionali metodi di apprendimento automatico in termini di AUC. Inoltre, lo studio ha dimostrato come la modellazione a grafo, quando costruita sulla base della conoscenza di esperti clinici, ha dato buoni risultati e mostrato un'alta resilienza al rumore introdotto dalle tecniche di privacy.