Amyotrophic lateral sclerosis (ALS) is a neurodegenerative disorder that affects motor neurons, leading to a progressive loss of voluntary muscle control. Depending on the symptoms at onset, ALS can be classified as either spinal (affecting the limbs) or bulbar (affecting speech and swallowing). These two subtypes exhibit distinct histopathological, anatomical, and prognostic features, but their underlying biological differences remain poorly characterized, limiting precise diagnosis and treatment. Epigenetic alterations are increasingly recognized as key modulators of disease mechanisms in neurodegeneration. In particular, non-coding RNAs (ncRNAs), such as microRNAs (miRNAs) and long non-coding RNAs (lncRNAs), play essential regulatory roles in neuronal function, stress response, and inflammation, and their dysregulation has been associated with ALS pathogenesis. Investigating these molecules may therefore uncover epigenetic signatures that support patient stratification within a precision medicine framework. The aim of this thesis project is to develop a reproducible computational framework for the identification and validation of RNA-based biomarkers. The study initially focuses on discovering differentially expressed ncRNAs, and subsequently explores their potential to derive discriminative signatures capable of distinguishing between the two ALS subtypes. Samples were obtained from blood serum of 40 ALS patients (30 with bulbar onset and 10 with spinal onset) and 10 healthy controls. The proposed workflow for the analysis of RNA biomarkers integrates various steps: data pre-processing and normalization, missing value imputation, ensemble feature selection, feature orthogonalization, model optimization and validation with class imbalance correction, and biological validation and interpretation of findings. In ensemble feature selection, the output from four independent algorithms were employed: Random Forest, Recursive Feature Elimination, LASSO, and K-Best, allowed to construct a robust and stable ranking of features, which was then filtered by an orthogonalization step to keep only those features that provide non-redundant information. Multi-Omics Factor Analysis (MOFA) was used to perform a comparison with a common integrational technique in this field. Although the MOFA-derived factors achieved a great differentiation of ALS patients from controls, they mainly reflected the global disease-related variance rather than the molecular distinctions specific to subtypes, corroborating the proposed approach as more suitable in this case. In fact, the Partial Least Squares (PLS) model developed in this study, comprising five components, indicated that the second component had a limited yet noticeable ability to differentiate between bulbar and spinal patients. In conclusion, the results confirm that the proposed computational workflow is a trustworthy and biologically interpretable tool for the discovery of RNA biomarkers in ALS, combining statistical robustness and biological relevance. This framework offers a firm ground for subsequent developments, such as the experimental confirmation and the integration of further omics layers for a deeper comprehension of the molecular heterogeneity of ALS.

La sclerosi laterale amiotrofica (SLA) è una malattia neurodegenerativa che colpisce i motoneuroni, causando una progressiva perdita del controllo volontario dei muscoli. A seconda dei sintomi iniziali, la SLA può essere classificata come spinale (che colpisce gli arti) o bulbare (che colpisce la parola e la deglutizione). Questi due sottotipi presentano caratteristiche istopatologiche, anatomiche e prognostiche distinte, ma le loro differenze biologiche sottostanti rimangono poco caratterizzate, limitando la precisione della diagnosi e del trattamento. Le alterazioni epigenetiche sono sempre più riconosciute come modulatori chiave dei meccanismi patologici nella neurodegenerazione. In particolare, gli RNA non codificanti (ncRNA), come i microRNA (miRNA) e gli RNA non codificanti lunghi (lncRNA), svolgono un ruolo regolatorio essenziale nella funzione neuronale, nella risposta allo stress e nell'infiammazione, e la loro disregolazione è stata associata alla patogenesi della SLA. Lo studio di queste molecole potrebbe quindi portare alla scoperta di firme epigenetiche che supportano la stratificazione dei pazienti in un quadro di medicina di precisione. L'obiettivo di questo progetto di tesi è quello di sviluppare un quadro computazionale riproducibile per l'identificazione e la convalida di biomarcatori basati sull'RNA. Lo studio si concentra inizialmente sulla scoperta di ncRNA espressi in modo differenziale e successivamente esplora il loro potenziale per ricavare firme discriminanti in grado di distinguere tra i due sottotipi di SLA. I campioni sono stati ottenuti dal siero sanguigno di 40 pazienti affetti da SLA (30 con insorgenza bulbare e 10 con insorgenza spinale) e 10 controlli sani.Il flusso di lavoro proposto per l'analisi dei biomarcatori RNA integra varie fasi: pre-elaborazione e normalizzazione dei dati, imputazione dei valori mancanti, selezione delle caratteristiche dell'insieme, ortogonalizzazione delle caratteristiche, ottimizzazione e convalida del modello con correzione dello squilibrio di classe, convalida biologica e interpretazione dei risultati. Nella selezione delle caratteristiche dell'insieme, sono stati utilizzati i risultati di quattro algoritmi indipendenti: Random Forest, Recursive Feature Elimination, LASSO e K-Best, che hanno permesso di costruire una classifica robusta e stabile delle caratteristiche, che è stata poi filtrata da una fase di ortogonalizzazione per mantenere solo quelle caratteristiche che forniscono informazioni non ridondanti. L'analisi fattoriale multi-omica (MOFA) è stata utilizzata per eseguire un confronto con una tecnica di integrazione comune in questo campo. Sebbene i fattori derivati dalla MOFA abbiano consentito una grande differenziazione dei pazienti affetti da SLA rispetto ai controlli, essi riflettevano principalmente la varianza globale correlata alla malattia piuttosto che le distinzioni molecolari specifiche dei sottotipi, confermando l'approccio proposto come più adatto in questo caso. Infatti, il modello Partial Least Squares (PLS) sviluppato in questo studio, composto da cinque componenti, ha indicato che la seconda componente possedeva una capacità limitata ma comunque evidente nel differenziare tra pazienti bulbari e spinali.In conclusione, i risultati confermano che il flusso di lavoro computazionale proposto è uno strumento affidabile e biologicamente interpretabile per la scoperta di biomarcatori RNA nella SLA, che combina robustezza statistica e rilevanza biologica. Questo quadro offre una base solida per sviluppi successivi, come la conferma sperimentale e l'integrazione di ulteriori livelli omici per una comprensione più approfondita dell'eterogeneità molecolare della SLA.

An integrative bioinformatics and machine learning approach for non-coding RNA-based signatures in Amyotrophic Lateral Sclerosis

Cacciatore, Alessandro
2025/2026

Abstract

Amyotrophic lateral sclerosis (ALS) is a neurodegenerative disorder that affects motor neurons, leading to a progressive loss of voluntary muscle control. Depending on the symptoms at onset, ALS can be classified as either spinal (affecting the limbs) or bulbar (affecting speech and swallowing). These two subtypes exhibit distinct histopathological, anatomical, and prognostic features, but their underlying biological differences remain poorly characterized, limiting precise diagnosis and treatment. Epigenetic alterations are increasingly recognized as key modulators of disease mechanisms in neurodegeneration. In particular, non-coding RNAs (ncRNAs), such as microRNAs (miRNAs) and long non-coding RNAs (lncRNAs), play essential regulatory roles in neuronal function, stress response, and inflammation, and their dysregulation has been associated with ALS pathogenesis. Investigating these molecules may therefore uncover epigenetic signatures that support patient stratification within a precision medicine framework. The aim of this thesis project is to develop a reproducible computational framework for the identification and validation of RNA-based biomarkers. The study initially focuses on discovering differentially expressed ncRNAs, and subsequently explores their potential to derive discriminative signatures capable of distinguishing between the two ALS subtypes. Samples were obtained from blood serum of 40 ALS patients (30 with bulbar onset and 10 with spinal onset) and 10 healthy controls. The proposed workflow for the analysis of RNA biomarkers integrates various steps: data pre-processing and normalization, missing value imputation, ensemble feature selection, feature orthogonalization, model optimization and validation with class imbalance correction, and biological validation and interpretation of findings. In ensemble feature selection, the output from four independent algorithms were employed: Random Forest, Recursive Feature Elimination, LASSO, and K-Best, allowed to construct a robust and stable ranking of features, which was then filtered by an orthogonalization step to keep only those features that provide non-redundant information. Multi-Omics Factor Analysis (MOFA) was used to perform a comparison with a common integrational technique in this field. Although the MOFA-derived factors achieved a great differentiation of ALS patients from controls, they mainly reflected the global disease-related variance rather than the molecular distinctions specific to subtypes, corroborating the proposed approach as more suitable in this case. In fact, the Partial Least Squares (PLS) model developed in this study, comprising five components, indicated that the second component had a limited yet noticeable ability to differentiate between bulbar and spinal patients. In conclusion, the results confirm that the proposed computational workflow is a trustworthy and biologically interpretable tool for the discovery of RNA biomarkers in ALS, combining statistical robustness and biological relevance. This framework offers a firm ground for subsequent developments, such as the experimental confirmation and the integration of further omics layers for a deeper comprehension of the molecular heterogeneity of ALS.
MALDERA, LINDA
SALVI, ERIKA
ING - Scuola di Ingegneria Industriale e dell'Informazione
10-dic-2025
2025/2026
La sclerosi laterale amiotrofica (SLA) è una malattia neurodegenerativa che colpisce i motoneuroni, causando una progressiva perdita del controllo volontario dei muscoli. A seconda dei sintomi iniziali, la SLA può essere classificata come spinale (che colpisce gli arti) o bulbare (che colpisce la parola e la deglutizione). Questi due sottotipi presentano caratteristiche istopatologiche, anatomiche e prognostiche distinte, ma le loro differenze biologiche sottostanti rimangono poco caratterizzate, limitando la precisione della diagnosi e del trattamento. Le alterazioni epigenetiche sono sempre più riconosciute come modulatori chiave dei meccanismi patologici nella neurodegenerazione. In particolare, gli RNA non codificanti (ncRNA), come i microRNA (miRNA) e gli RNA non codificanti lunghi (lncRNA), svolgono un ruolo regolatorio essenziale nella funzione neuronale, nella risposta allo stress e nell'infiammazione, e la loro disregolazione è stata associata alla patogenesi della SLA. Lo studio di queste molecole potrebbe quindi portare alla scoperta di firme epigenetiche che supportano la stratificazione dei pazienti in un quadro di medicina di precisione. L'obiettivo di questo progetto di tesi è quello di sviluppare un quadro computazionale riproducibile per l'identificazione e la convalida di biomarcatori basati sull'RNA. Lo studio si concentra inizialmente sulla scoperta di ncRNA espressi in modo differenziale e successivamente esplora il loro potenziale per ricavare firme discriminanti in grado di distinguere tra i due sottotipi di SLA. I campioni sono stati ottenuti dal siero sanguigno di 40 pazienti affetti da SLA (30 con insorgenza bulbare e 10 con insorgenza spinale) e 10 controlli sani.Il flusso di lavoro proposto per l'analisi dei biomarcatori RNA integra varie fasi: pre-elaborazione e normalizzazione dei dati, imputazione dei valori mancanti, selezione delle caratteristiche dell'insieme, ortogonalizzazione delle caratteristiche, ottimizzazione e convalida del modello con correzione dello squilibrio di classe, convalida biologica e interpretazione dei risultati. Nella selezione delle caratteristiche dell'insieme, sono stati utilizzati i risultati di quattro algoritmi indipendenti: Random Forest, Recursive Feature Elimination, LASSO e K-Best, che hanno permesso di costruire una classifica robusta e stabile delle caratteristiche, che è stata poi filtrata da una fase di ortogonalizzazione per mantenere solo quelle caratteristiche che forniscono informazioni non ridondanti. L'analisi fattoriale multi-omica (MOFA) è stata utilizzata per eseguire un confronto con una tecnica di integrazione comune in questo campo. Sebbene i fattori derivati dalla MOFA abbiano consentito una grande differenziazione dei pazienti affetti da SLA rispetto ai controlli, essi riflettevano principalmente la varianza globale correlata alla malattia piuttosto che le distinzioni molecolari specifiche dei sottotipi, confermando l'approccio proposto come più adatto in questo caso. Infatti, il modello Partial Least Squares (PLS) sviluppato in questo studio, composto da cinque componenti, ha indicato che la seconda componente possedeva una capacità limitata ma comunque evidente nel differenziare tra pazienti bulbari e spinali.In conclusione, i risultati confermano che il flusso di lavoro computazionale proposto è uno strumento affidabile e biologicamente interpretabile per la scoperta di biomarcatori RNA nella SLA, che combina robustezza statistica e rilevanza biologica. Questo quadro offre una base solida per sviluppi successivi, come la conferma sperimentale e l'integrazione di ulteriori livelli omici per una comprensione più approfondita dell'eterogeneità molecolare della SLA.
File allegati
File Dimensione Formato  
2025_12_Cacciatore_Tesi.pdf

non accessibile

Descrizione: Tesi
Dimensione 10.51 MB
Formato Adobe PDF
10.51 MB Adobe PDF   Visualizza/Apri
2025_12_Cacciatore_Executive_Summary.pdf

non accessibile

Descrizione: Executive Summary
Dimensione 1.18 MB
Formato Adobe PDF
1.18 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/247485