Leveraging computer-based methods for biomarker discovery and drug repurposing in neurodegenerative diseases

Neurodegenerative diseases represent one of the most pressing medical and societal challenges of the 21st century. Among them, Parkinson’s Disease (PD) is particularly burdensome due to its high prevalence, progressive course, and the absence of disease-modifying therapies. Current treatments remain largely symptomatic, offering relief from motor symptoms but failing to alter the molecular processes that drive neurodegeneration. A major unmet need is therefore the identification of early biomarkers, capable of capturing molecular changes during the prodromal phase, and the development of novel therapeutic strategies that can intervene before irreversible neuronal loss occurs. At the same time, the rapid growth of high-dimensional omics and clinical datasets demands computational frameworks that can address data complexity, produce interpretable results, and operate within strict ethical and regulatory frameworks such as the General Data Protection Regulation (GDPR). This Thesis addresses these challenges through an integrated computational framework that explicitly combines the application and extension of state-of-the-art analytical methods with the development of novel algorithmic solutions. The work is organized around three complementary pillars: (i) transcriptomic profiling of PD across tissues and disease stages, (ii) interpretable machine-learning–based modeling of disease similarity and patient stratification, and (iii) the development of a novel network-based computational method for drug repurposing, together with scalable and privacy-preserving data infrastructures. These pillars are not independent but are integrated within a coherent and progressive workflow: transcriptomic analyses define disease-relevant molecular signatures, machine-learning models prioritize and stratify these signals at the patient level, and the resulting molecular landscape is subsequently leveraged to guide knowledge-driven drug repurposing. The first pillar focused on transcriptomic analyses. RNA Sequencing (RNA-seq) data from six post-mortem brain regions revealed strong spatial heterogeneity, with no single gene consistently deregulated across all regions. This finding underscores the region-specific nature of PD pathology, suggesting that distinct brain circuits undergo differential molecular remodeling. In parallel, longitudinal analyses of peripheral blood samples from the Parkinson's Progression Markers Initiative (PPMI) cohort revealed dynamic transcriptomic changes during the prodromal phase. A “critical window” of maximum divergence was identified between one and two years before clinical diagnosis, highlighting systemic alterations that precede symptom onset. Integration of brain and blood datasets yielded a systemic signature of 341 differentially expressed genes, and a stable core of 143 genes consistently deregulated across brain and blood at both early and late stages. This cross-tissue signature provides one of the first robust molecular foundations for the development of blood-based biomarkers for PD. Building on these molecular insights, interpretable machine-learning models were employed to derive a probabilistic measure of disease similarity, termed the \textit{PD-likeness score}, with a specific focus on individuals in the prodromal phase of PD. Individuals were positioned along a continuum between health and disease, enabling molecular stratification of prodromal subjects and the identification of stable subgroups characterized by different degrees of disease similarity. While predictive performance was modest—reflecting the subtlety of peripheral transcriptomic signals in early disease stages—the resulting models provided biologically meaningful and interpretable outputs, highlighting the added value of longitudinal data in capturing progression-associated signatures. To enhance interpretability, single-sample Gene Set Enrichment Analysis (ssGSEA) was applied to compute pathway activity profiles for 50 Hallmark gene sets. Correlation analyses revealed biologically meaningful associations between PD-likeness and pathways related to oxidative phosphorylation, reactive oxygen species signaling, and neuroinflammation, as well as negative associations with cell cycle regulation and DNA repair. These results demonstrate that the PD-likeness score reflects established disease biology rather than acting as a black-box predictive measure. The third pillar of the Thesis addressed therapeutic innovation through computational drug repurposing. A novel Two-Tower extension of Non-Negative Matrix Tri-Factorization (NMTF) was developed to integrate heterogeneous biomedical networks and predict drug–target associations. This methodological contribution enables the generation of semantically meaningful embeddings for both drugs and genes, overcoming key limitations of standard NMTF formulations. The proposed framework achieved strong predictive performance (AUROC 0.928) and identified several promising repurposing candidates for PD, including Promethazine, Guanabenz, and Topiramate, each supported by independent biological or clinical evidence. Finally, this Thesis contributes to the Horizon Europe Better Real-World Health-Data Distributed Analytics Research Platform (BETTER) project, which addresses the infrastructural challenge of secure and ethical biomedical data sharing. By integrating FAIRification strategies with federated learning infrastructures, BETTER operationalizes the principle of “bringing computation to the data,” enabling GDPR-compliant, large-scale collaborative analyses. Pilot implementations in rare disease cohorts demonstrated the feasibility of distributed genotype–phenotype analyses without centralizing sensitive data, providing a scalable blueprint with direct relevance for neurodegenerative disease research. Taken together, the contributions of this Thesis span molecular characterization, interpretable patient stratification, novel algorithmic development for drug repurposing, and ethical data infrastructures. By explicitly connecting transcriptomic discovery, machine-learning–based prioritization, and network-driven therapeutic hypothesis generation, this work advances both the biological understanding of PD and the methodological foundations of data-driven and privacy-aware computational medicine.

Le malattie neurodegenerative rappresentano una delle sfide mediche e sociali più rilevanti del XXI secolo. Tra queste, la malattia di Parkinson (Parkinson’s Disease, PD) è particolarmente gravosa a causa della sua elevata prevalenza, del decorso progressivo e dell’assenza di terapie in grado di modificare la storia naturale della malattia. I trattamenti attualmente disponibili sono prevalentemente sintomatici: alleviano i sintomi motori ma non intervengono sui processi molecolari alla base della neurodegenerazione. Esiste pertanto un’importante necessità clinica insoddisfatta di identificare biomarcatori precoci, capaci di intercettare i cambiamenti molecolari durante la fase prodromica, e di sviluppare nuove strategie terapeutiche in grado di intervenire prima che si verifichi una perdita neuronale irreversibile. Parallelamente, la rapida crescita di dataset clinici e omici ad alta dimensionalità richiede lo sviluppo di framework computazionali in grado di gestire la complessità dei dati, fornire risultati interpretabili e operare nel rispetto di stringenti vincoli etici e regolatori, quali il Regolamento Generale sulla Protezione dei Dati (GDPR). Questa Tesi affronta tali sfide attraverso un framework computazionale integrato che combina esplicitamente l’applicazione e l’estensione di metodi analitici allo stato dell’arte con lo sviluppo di nuove soluzioni algoritmiche. Il lavoro è organizzato attorno a tre pilastri complementari: (i) la caratterizzazione trascrittomica della PD attraverso diversi tessuti e stadi di malattia, (ii) la modellazione interpretabile basata su machine learning per la stima della similarità di malattia e la stratificazione dei pazienti, e (iii) lo sviluppo di un nuovo metodo computazionale basato su reti per il drug repurposing, integrato con infrastrutture di analisi dei dati scalabili e rispettose della privacy. Questi pilastri non sono indipendenti, ma integrati all’interno di un workflow coerente e progressivo: le analisi trascrittomiche definiscono le firme molecolari rilevanti per la malattia; i modelli di machine learning prioritizzano e stratificano tali segnali a livello di singolo individuo; il panorama molecolare risultante viene infine sfruttato per guidare strategie di drug repurposing basate sulla conoscenza. Il primo pilastro è dedicato alle analisi trascrittomiche. Dati di RNA Sequencing (RNA-seq) provenienti da sei regioni cerebrali post-mortem hanno rivelato una marcata eterogeneità spaziale, senza l’identificazione di geni costantemente deregolati in tutte le regioni. Questo risultato evidenzia la natura regione-specifica della patologia parkinsoniana, suggerendo che diversi circuiti cerebrali siano soggetti a rimodellamenti molecolari distinti. In parallelo, analisi longitudinali di campioni di sangue periferico della coorte Parkinson’s Progression Markers Initiative (PPMI) hanno messo in luce cambiamenti trascrittomici dinamici durante la fase prodromica. È stata identificata una “finestra critica” di massima divergenza molecolare tra uno e due anni prima della diagnosi clinica, indicando la presenza di alterazioni sistemiche che precedono l’insorgenza dei sintomi. L’integrazione dei dataset cerebrali e periferici ha portato all’identificazione di una firma sistemica composta da 341 geni differenzialmente espressi e di un nucleo stabile di 143 geni costantemente deregolati nel cervello e nel sangue sia nelle fasi precoci sia in quelle tardive della malattia. Questa firma cross-tissutale fornisce una delle prime basi molecolari robuste per lo sviluppo di biomarcatori ematici per la PD. Sulla base di queste evidenze molecolari, sono stati sviluppati modelli di machine learning interpretabili per derivare una misura probabilistica di similarità di malattia, denominata PD-likeness score, con particolare attenzione agli individui in fase prodromica. I soggetti sono stati posizionati lungo un continuum che va dalla salute alla malattia, consentendo la stratificazione molecolare degli individui prodromici e l’identificazione di sottogruppi stabili caratterizzati da differenti gradi di similarità con la PD. Sebbene le performance predittive siano risultate moderate — riflettendo la sottigliezza dei segnali trascrittomici periferici nelle fasi iniziali della malattia — i modelli hanno prodotto risultati biologicamente significativi e interpretabili, mettendo in evidenza il valore aggiunto dei dati longitudinali nella cattura delle dinamiche di progressione. Per rafforzare l’interpretabilità biologica, è stata applicata la Gene Set Enrichment Analysis a livello di singolo campione (ssGSEA) per calcolare i profili di attività di 50 Hallmark gene sets. Le analisi di correlazione hanno evidenziato associazioni biologicamente rilevanti tra il PD-likeness score e pathway legati alla fosforilazione ossidativa, alla segnalazione delle specie reattive dell’ossigeno e alla neuroinfiammazione, nonché associazioni negative con i processi di regolazione del ciclo cellulare e di riparazione del DNA. Questi risultati dimostrano che il PD-likeness score riflette meccanismi biologici noti della malattia, anziché costituire una misura predittiva di tipo black-box. Il terzo pilastro della Tesi affronta l’innovazione terapeutica attraverso il drug repurposing computazionale. È stata sviluppata una nuova estensione Two-Tower della Non-Negative Matrix Tri-Factorization (NMTF) per l’integrazione di reti biomediche eterogenee e la predizione di associazioni farmaco-target. Questo contributo metodologico consente di generare embedding semanticamente informativi sia per i farmaci sia per i geni, superando alcune limitazioni chiave delle formulazioni standard di NMTF. Il framework proposto ha mostrato elevate performance predittive (AUROC 0,928) e ha identificato diversi candidati promettenti per il riposizionamento terapeutico nella PD, tra cui Prometazina, Guanabenz e Topiramato, ciascuno supportato da evidenze biologiche o cliniche indipendenti. Infine, questa Tesi contribuisce al progetto Horizon Europe Better Real-World Health-Data Distributed Analytics Research Platform (BETTER), che affronta la sfida infrastrutturale della condivisione sicura ed etica dei dati biomedici. Integrando strategie di FAIRification con infrastrutture di federated learning, BETTER concretizza il principio del “portare il calcolo ai dati”, consentendo analisi collaborative su larga scala in conformità con il GDPR. Implementazioni pilota su coorti di malattie rare hanno dimostrato la fattibilità di analisi distribuite genotipo-fenotipo senza la necessità di centralizzare dati sensibili, fornendo un modello scalabile di diretto interesse anche per la ricerca sulle malattie neurodegenerative. Nel complesso, i contributi di questa Tesi spaziano dalla caratterizzazione molecolare alla stratificazione interpretabile dei pazienti, dallo sviluppo di nuovi algoritmi per il drug repurposing alla progettazione di infrastrutture etiche per la gestione dei dati. Collegando in modo esplicito la scoperta trascrittomica, la prioritizzazione basata su machine learning e la generazione di ipotesi terapeutiche guidate da reti, questo lavoro contribuisce sia all’avanzamento della comprensione biologica della malattia di Parkinson sia al rafforzamento delle basi metodologiche della medicina computazionale data-driven e privacy-aware.