Schizophrenia (SZ) is a complex mental disorder with a strong genetic basis, associated with a wide range of severe complications. Unaffected relatives of individuals diagnosed with the disease have a higher risk, compared to the general population, of developing SZ. The diagnosis process is often complex and typically requires a minimum of 6 months. Electroencephalography (EEG) is a non-invasive technique to measure electrical activity in the brain, proven to aid in schizophrenia detection. Given the importance of early diagnosis, this study aims to address the challenge of detecting SZ predisposition and risk. It focuses on classifying, using EEG data, two healthy populations, one of which consists of individuals with a twin diagnosed with the disorder and can be deemed as genetically predisposed. Feature selection and dimensionality reduction are combined to compress EEG information into a latent space representation that can enhance generalisability and support classifier training. The outstanding results achieved in Natural Language Processing (NLP) by Transformer-Foundation Models (FMs) motivate the use of a neural Transformer to compress the original EEGs. Raw EEG signals from a balanced sample of 100 individuals are preprocessed and features of interest for SZ are manually derived and fed into two classes of classification algorithms: XGBoost and the Support Vector Machine (SVM). The same models are then trained on a subset of the original features. Neural tokens and embeddings are extracted using a pre-trained Transformer-based FM known as LaBraM, and used for classification. All models yield a final subject-wise accuracy of 70%. Hand-crafted features succeed in explaining class variability, suggesting that patterns of the disorder can be observed in unaffected twins. Dimensional reduction facilitates the learning process, automatically embedding neural activity in a concise latent space without the need to manually derive descriptors.

La schizofrenia (SZ) è un complesso disturbo mentale, dalla forte componente genetica, che comporta una serie di gravi complicazioni. Rispetto alla popolazione generale, i parenti non affetti di soggetti malati hanno un rischio aumentato di sviluppare la malattia, il cui excursus diagnostico risulta spesso faticoso e richiede tipicamente un minimo di 6 mesi. L'Elettroencefalografia (EEG) è una tecnica non invasiva per misurare l'attività elettrica del cervello, comunemente utilizzata come parte del processo di anamnesi. Una diagnosi precoce di schizofrenia può avere effetti sostanziali sulla qualità di vita di un paziente: classificando un dataset di tracciati EEG provenienti da due popolazioni di individui sani, una delle quali composta da soggetti con un gemello affetto, questo lavoro mira a rilevare la predisposizione al disturbo schizofrenico. Nel tentativo di catturare la complessa variabilità spazio-temporale dei segnali EEG, e di trovarne una rappresentazione in uno spazio latente che favorisca l'apprendimento e garantisca la generalizzabilità della rappresentazione appresa, questo lavoro combina tecniche di selezione delle caratteristiche con tecniche di riduzione dimensionale, sfruttando, sull'onda dello straordinario successo ottenuto in Natural Language Processing (NLP) dai modelli fondamentali, un Transformer neurale (LaBraM) per mappare i segnali EEG in un opportuno spazio latente. Dopo aver preprocessato i segnali EEG grezzi, raccolti da un totale di 100 individui equamente divisi nelle due classi, vengono calcolate le caratteristiche di interesse per la SZ. Due modelli di classificazione, XGBoost e la Support Vector Machine (SVM), sono prima addestrati su tali caratteristiche, poi su un loro sottoinsieme e infine sulla mappatura dei segnali ottenuta tramite il Transformer neurale. Tutti i modelli ottengono una precisione finale, a livello di soggetto, del 70%. Le caratteristiche calcolate spiegano la variabilità tra classi, suggerendo che anche nei gemelli non affetti sussistano meccanismi del disturbo. L'utilizzo del Transformer neurale consente l'apprendimento automatico a partire dalla rappresentazione latente concisa, senza necessitare del lavoro manuale di calcolo delle caratteristiche.

Analyzing schizophrenia risk using machine learning on twin electroencephalography data

Rebay, Giulia
2023/2024

Abstract

Schizophrenia (SZ) is a complex mental disorder with a strong genetic basis, associated with a wide range of severe complications. Unaffected relatives of individuals diagnosed with the disease have a higher risk, compared to the general population, of developing SZ. The diagnosis process is often complex and typically requires a minimum of 6 months. Electroencephalography (EEG) is a non-invasive technique to measure electrical activity in the brain, proven to aid in schizophrenia detection. Given the importance of early diagnosis, this study aims to address the challenge of detecting SZ predisposition and risk. It focuses on classifying, using EEG data, two healthy populations, one of which consists of individuals with a twin diagnosed with the disorder and can be deemed as genetically predisposed. Feature selection and dimensionality reduction are combined to compress EEG information into a latent space representation that can enhance generalisability and support classifier training. The outstanding results achieved in Natural Language Processing (NLP) by Transformer-Foundation Models (FMs) motivate the use of a neural Transformer to compress the original EEGs. Raw EEG signals from a balanced sample of 100 individuals are preprocessed and features of interest for SZ are manually derived and fed into two classes of classification algorithms: XGBoost and the Support Vector Machine (SVM). The same models are then trained on a subset of the original features. Neural tokens and embeddings are extracted using a pre-trained Transformer-based FM known as LaBraM, and used for classification. All models yield a final subject-wise accuracy of 70%. Hand-crafted features succeed in explaining class variability, suggesting that patterns of the disorder can be observed in unaffected twins. Dimensional reduction facilitates the learning process, automatically embedding neural activity in a concise latent space without the need to manually derive descriptors.
BRÜSCH, THEA
SANDØ AMBROSEN, KAREN MARIE
SONNE ALSTRØM, TOMMY
ING - Scuola di Ingegneria Industriale e dell'Informazione
11-dic-2024
2023/2024
La schizofrenia (SZ) è un complesso disturbo mentale, dalla forte componente genetica, che comporta una serie di gravi complicazioni. Rispetto alla popolazione generale, i parenti non affetti di soggetti malati hanno un rischio aumentato di sviluppare la malattia, il cui excursus diagnostico risulta spesso faticoso e richiede tipicamente un minimo di 6 mesi. L'Elettroencefalografia (EEG) è una tecnica non invasiva per misurare l'attività elettrica del cervello, comunemente utilizzata come parte del processo di anamnesi. Una diagnosi precoce di schizofrenia può avere effetti sostanziali sulla qualità di vita di un paziente: classificando un dataset di tracciati EEG provenienti da due popolazioni di individui sani, una delle quali composta da soggetti con un gemello affetto, questo lavoro mira a rilevare la predisposizione al disturbo schizofrenico. Nel tentativo di catturare la complessa variabilità spazio-temporale dei segnali EEG, e di trovarne una rappresentazione in uno spazio latente che favorisca l'apprendimento e garantisca la generalizzabilità della rappresentazione appresa, questo lavoro combina tecniche di selezione delle caratteristiche con tecniche di riduzione dimensionale, sfruttando, sull'onda dello straordinario successo ottenuto in Natural Language Processing (NLP) dai modelli fondamentali, un Transformer neurale (LaBraM) per mappare i segnali EEG in un opportuno spazio latente. Dopo aver preprocessato i segnali EEG grezzi, raccolti da un totale di 100 individui equamente divisi nelle due classi, vengono calcolate le caratteristiche di interesse per la SZ. Due modelli di classificazione, XGBoost e la Support Vector Machine (SVM), sono prima addestrati su tali caratteristiche, poi su un loro sottoinsieme e infine sulla mappatura dei segnali ottenuta tramite il Transformer neurale. Tutti i modelli ottengono una precisione finale, a livello di soggetto, del 70%. Le caratteristiche calcolate spiegano la variabilità tra classi, suggerendo che anche nei gemelli non affetti sussistano meccanismi del disturbo. L'utilizzo del Transformer neurale consente l'apprendimento automatico a partire dalla rappresentazione latente concisa, senza necessitare del lavoro manuale di calcolo delle caratteristiche.
File allegati
File Dimensione Formato  
Rebay_Giulia_Executive_Summary.pdf

non accessibile

Descrizione: Executive Summary
Dimensione 1.32 MB
Formato Adobe PDF
1.32 MB Adobe PDF   Visualizza/Apri
Rebay_Giulia_Master_Thesis.pdf

non accessibile

Descrizione: Master Thesis
Dimensione 9.57 MB
Formato Adobe PDF
9.57 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/230987