Introduction Sleep is a complex process during which body and mind perform an autoregulation of vital, cognitive and recovery activities. The analysis of physiological signals, produced by human beings during sleep, can provide information about people’s health, that could not be appreciated during wake. For this reason, sleep aroused the interest in many research fields. The polysomnographic test is used for sleep investigation. It is conducted on patients at night in a sleep laboratory, supervised by the experts. The test is performed to record physiological signals, such as EEG, EMG, EOG, ECG etc., that later can be scored to provide significant sleep parameters used by clinicians to produce clinical diagnoses. These specific sleep features could be exploited in improving our understanding of sleep disorders and other pathologies and could be used as early markers for prediction of future diseases. Purpose of the thesis In this thesis, Machine Learning algorithms and statistical models are applied on polysomnographic data for sleep diseases analysis, focusing on a typical sleep disease, Obstructive Sleep Apnea Syndrome (OSAS), and a neurodegenerative pathology, Parkinson’s Disease (PD). The goal is to understand if it is possible to individuate sleep parameters that, correlating with the severity of these diseases, can be interpreted as early markers and help in the prediction of pathologies, not only properly of sleep, like OSAS, but also like PD, which is not defined as a sleep disorder, but could also manifest during sleep. Afterwards, how to better describe comorbidities presence is evaluated through clustering models. The final goal of these analyses is to create a diagnostic support system that can automatically identify, with a Fuzzy clustering procedure, pathologies and comorbities. This study is integrated into the European project SPAS (Sleep Physician Assistant System) in collaboration with two European companies, the Inselspital in Bern and SUPSI-Scuola Universitaria Professionale della Svizzera Italiana. Dataset and Technology The analysis is based on thirty sleep parameters obtained from scored polysomnography (PSG). The dataset used is composed of 57 healthy subjects, or controls, 49 Parkinson’s patients and 60 Sleep Apnea patients. The PyCharm development environment is used to program in Python, the language employed to write all the algorithms considered in this analysis. Investigation on the severity of diseases First, an analysis on the severity of Sleep Apnea Syndrome and Parkinson’s Disease is conducted. The aim of the investigation is to extract specific sleep parameters, among all the available ones, that can correlate the best with the grievousness of the considered diseases and recognize them as early markers for the pathology. To do so, indexes of the severity of diseases are taken as a reference: the apnea-hypopnea index (AHI) and the UPDRS-Part III, after 30 minutes wake (M30), are the ones for Sleep Apnea Syndrome and Parkinson’s Disease, respectively. Multiple Linear Regression with Backward Elimination was applied on sleep parameters of OSAS dataset to find a linear relationship of features with AHI. The algorithm indicates the number of sleep cycles, the arousal index (AI) and the hypopnea index (HI) as the statistically relevant features with a P-value below 0.05. Statistical parameters, such as the standardized regression coefficients, standard error and R-squared value, produced by each one of the features found, are compared to determine the most important parameters for the linear model. The model shows how AI and HI, used together, minimize the standard error, that is, the spread of data points along the regression line. Anyways, the higher R-squared value of 0.918, that measures the strength of linear relationship between features and AHI, is reached considering all the three statistically relevant parameters found. An R-squared value greater than 0.9 indicates the effectiveness of the analysis: HI, AI and number of cycles are optimal sleep parameters to describe the severity of Sleep Apnea Syndrome. Moreover, when fed to a Fuzzy C-Means algorithm for clustering on the only PD dataset, they determine the efficient subdivision of OSAS patients in two clinically meaningful clusters, one containing more severe subjects with respect to the other. Several analyses are conducted on Parkinson’s dataset to determine an adequate relationship of sleep parameters with the severity of the disease, expressed by M30. A Multiple Linear Regression analysis with Backward Elimination is applied first. The model finds a linear, statistically meaningful, relationship of M30 with total sleep time (TST), stage N2 latency, percentage of wake (%W), wake after sleep onset (WASO) and desaturation index (DI). Anyways, the total R-squared value of 0.334 is too low to be considered acceptable; this means that the linear relationship between M30 and features found is very weak. Moreover, it decreases drastically to 0.031 when considering only %W, that appears to be the most important, linearly correlated, feature among the ones found, according to the analysis made on regression coefficients, standard error and incremental impact on R-squared. Linear Regression reveals to be a non-suitable model to be applied on a complex and variable dataset as it is the Parkinson’s one. For this reason, a Polynomial Regression is applied to determine a non-linear relationship between sleep parameters and M30. All the possible combinations of features in groups, from two to five, are tested by the model. Consecutive iterations are performed for each group of features by increasing, at each time and from two to ten, the degree of the polynomial equation that represents the regression curve. The best curve is the one minimizing the Root Mean Square Error (RMSE) and it is chosen among all the possible curves of degree from two to ten, for all the possible groups of features that can describe PD dataset. The selected curve of third degree and the corresponding set of features made by total sleep time (TST), stage N2 latency, percentage of stage N2 (%N2) and arousal index (AI), are the most suitable, non-linear result for PD dataset. The related value of RMSE is 0.4. In any case, both features found with Multiple Linear and Polynomial Regression, when employed in Fuzzy C-Means algorithm for clustering, are not able to determine a subdivision in two clusters separating PD patients according to the severity of the disease. This clinically meaningful subdivision is archived using the following strategy: cut-off values of M30, taken from literature, are used to subdivide PD dataset in mild (M30<33) and moderate (33<59) patients, since no severe PD subjects are included in the dataset. All the possible combinations of sleep parameters, in groups from two to five, are processed with Principal Component Analysis (PCA), to reduce intra-variables dependence, and fed to the Fuzzy C-Means algorithm, set to find two cluster centres. The algorithm extracts features that maximize the Fuzzy F1-score and Fuzzy Accuracy that is, sleep parameters contributing to the most efficient subdivision of the dataset in mild and moderate PD clusters. With a total Fuzzy F1-score of 0.84 and total Fuzzy Accuracy of 0.79, features individuated are the percentage of wake (%W) and the desaturation index (DI). Scoring results mentioned above, demonstrate that the clustering outcome obtained is, not only clinically meaningful, but also accurate. Clustering for comorbidities The clustering procedure is applied on the whole dataset including healthy subjects, Sleep Apnea and Parkinson’s patients to find out if it is possible to separate clinical groups in three clinically meaningful clusters, also in presence of comorbidities. For this purpose, the Fuzzy Logic is the most suitable tool that can be used to describe the fuzzy boundaries among classes of patients, characterized by overlapping pathologies. The Fuzzy C-Means algorithm, set to find three centroids, is used to test all the possible combinations of features for the total dataset, in groups from two to five. It individuates the group of sleep parameters that contribute to subdivide, in the most efficient way, the dataset in three clusters: the healthy, Sleep Apnea and Parkinson’s ones. This is done applying PCA to each group of features, to reduce dependence among variables, and selecting the set of sleep parameters that maximizes the Fuzzy F1-score and the Fuzzy Accuracy, when processing them with Fuzzy C-Means. Features extracted are the apnea-hypopnea index (AHI), the arousal index (AI) and the desaturation index (DI). They determine an accurate and suitable division in clinically meaningful clusters with high values of Fuzzy F1-score (0.909) and Fuzzy Accuracy (0.85). Analysing the clustering result obtained, a gradient distribution of PD and OSAS patients, according to AHI, can be noticed. This is a typical behaviour for Sleep Apnea subjects, since AHI is an index of severity of their disease, but it is not ordinary for Parkinson’s patients. This demonstrates that PD patients are clustered, not according to features specific for Parkinson’s disease, but mainly in relation to the severity of their Sleep Apnea Syndrome, since a great part of PD subjects also have breathing disorders (comorbidity case). To generalize results and extend them also to different and larger datasets, including PD patients without OSAS, features directly related to breathing disorders are eliminated from the dataset. The model based on Fuzzy C-Means tested the features left and extracts the arousal index (AI), percentage of REM sleep (%REM), percentage of wake (%W) percentage of N1 (%N1) and percentage of N2 (%N2) as sleep parameters that maximizes the Fuzzy F1-score (0.862) and Fuzzy Accuracy (0.815). Statistical measures of the goodness of classification decrease with respect to the clustering result obtained with AHI, AI and DI, but remain totally acceptable. Moreover, sleep parameters found generalize the study results. Indeed, they provide information specifically about PD and OSAS, as well as preserving the info on cases of comorbidities, becoming valid also if applied to different datasets. Here derives the strength of the study. For completeness, features extracted with the investigation on the severity of Sleep Apnea Syndrome and Parkinson’s Disease are involved in the clustering procedure on the whole dataset. This can help in determining if sleep parameters specifically related to diseases, can increase the precision of clustering or determine a gradient distribution of data points according to the severity of the two pathologies, at the same time. For this purpose, features found with Linear Regression analysis for OSAS patients and sleep parameters individuated by Linear and Polynomial Regression and Fuzzy C-Means models for PD subjects are added to features working for clustering on the complete dataset: AHI, AI, DI and %REM, %N1, %N2, %W, AI, respectively. Similarly, a complete clustering with Fuzzy C-Means using exclusively features found with Linear Regression for OSAS and Linear and Polynomial Regression and Fuzzy C-Means for PD patients is performed. Both the analyses show that these combinations of variables are not appropriate to subdivide the whole dataset in three clinically meaningful clusters corresponding to healthy, OSAS and PD groups. The explanation to this is that sleep parameters found to be the most correlated with the severity of Sleep Apnea Syndrome cannot apport a significant information also concerning Parkinson’s Disease and vice-versa. Indeed, different sleep features are significant for different pathologies. For this reason, the best clustering result that can be obtained is the one archived with %REM, %W, %N1, %N2 and AI, since it selects features that can provide significant information to all the considered categories of patients, at the same time, and producing an efficient, generalizable, clinically interpretable subdivision of subjects also affected by comorbidities. Conclusion The study demonstrates that it is possible, working with advanced analytic tools and machine learning algorithms on sleep parameters obtained from scored polysomnography, to find sleep features correlated with the severity of Sleep Apnea Syndrome and Parkinson’s Disease, interpretable as early markers. At the same time, the analysis demonstrates that it is possible to cluster a complex dataset, composed of healthy subjects and OSAS and PD patients, dividing it in three, clinically meaningful groups, that can be interpreted for diagnostic purposes, also in cases of comorbidities. Moreover, the analysis can also be extended to larger and more complex datasets, giving the opportunity to create a diagnostic support system that can automatically identify, with a Fuzzy clustering procedure, pathologies and comorbities. Future studies in this direction should perform analysis on larger datasets, also involving patients affected by other pathologies, such as diabetes, cardiovascular diseases, insomnia etc., to expand the possibility of a diagnostic use of results also to other disturbs.

Introduzione Il sonno è un processo complesso durante il quale corpo e mente contribuiscono all’autoregolazione delle funzioni vitali, cognitive e riparative. L’analisi dei segnali fisiologici, prodotti dagli esseri umani durante il sonno, possono fornire quelle informazioni, circa la salute delle persone, che non sono apprezzabili da svegli. Per questo motivo, l’analisi del sonno ha suscitato l’interesse di molti specialisti appartenenti a campi di ricerca diversi. Il test polisonnografico è usato per analizzare il sonno. È effettuato sui pazienti durante la notte, in laboratori appositi, con la supervisione degli esperti. Il test ha come scopo quello di registrare i segnali fisiologici, come EEG, EMG, EOG, ECG, etc., che successivamente passano attraverso una procedura di scoring per fornire parametri del sonno significativi, usati dai clinici per determinare le diagnosi. Queste features possono rivelarsi fondamentali per accrescere la comprensione dei disturbi del sonno e di altre patologie e possono essere riconosciuti come markers precoci, sfruttati per la predizione di future patologie. Scopo della tesi In questo lavoro di tesi, algoritmi di Machine Learning e modelli statistici sono applicati su dati polisomnografici per l’analisi di disturbi del sonno, focalizzandosi su un disordine tipico del sonno, la Sindrome delle Apnee Notturne Ostruttive (OSAS), e una malattia neurodegenerativa, il Parkinson (PD). Lo scopo è comprendere se è possibile individuare parametri del sonno che, correlandosi con la gravità delle patologie, possano essere interpretati come markers precoci e favorire la predizione di malattie, non solo tipiche del sonno, come OSAS, ma anche disturbi non direttamente legati ad esso, come PD. Inoltre, si valuta anche la possibilità di descrivere la presenza di comorbidità tra i pazienti, tramite procedure di clustering. Lo scopo finale dell’analisi è quello di creare un sistema per il supporto diagnostico che possa identificare automaticamente, tramite una procedura di clusterizzazione Fuzzy, diverse patologie e comorbidità. Questo studio è integrato nel progetto europeo SPAS (Sleep Physician Assistant System), in collaborazione con due compagnie europee, l’Inselpital di Berna e SUPSI-Scuola Universitaria Professionale della Svizzera Italiana. Dataset e Tecnologia L’analisi è basata su trenta parametri del sonno, ottenuti dallo scoring delle polisomnografie (PSG) di 57 soggetti sani, 49 parkinsoniani e 60 pazienti con apnee, che compongono il dataset. PyCharm è l’ambiente di sviluppo utilizzato per programmare in Python, il linguaggio impiegato per la stesura di tutti gli algoritmi considerati in questa tesi. Studio sulla gravità delle patologie Come prima cosa, è condotta un’analisi sulla gravità della Sindrome delle Apnee Notturne e della malattia di Parkinson. Lo scopo è quello di estrarre features specifiche, tra tutte quelle disponibili, che possano correlarsi al meglio con la gravità dei disturbi considerati, in modo da poterle riconoscere come markers precoci per quelle patologie. Per fare questo, sono presi in considerazione gli indici di severità: l’indice di apnea-ipopnea (AHI) e il risultato di UPDRS-Parte III trenta minuti dopo il risveglio (M30) rispettivamente per OSAS e PD. La Regressione Lineare Multipla con Backward Elimination sono applicati sulle features del sonno relative ai pazienti OSAS per trovare una relazione lineare delle variabili con AHI. L’algoritmo indica il numero di cicli del sonno, l’indice di risvegli (AI) e l’indice di ipopnee (HI) come le features statisticamente rilevanti con un P-value inferiore a 0.05. Successivamente, parametri statistici come i coefficienti di regressione standardizzati, l’errore standard e il valore di R-squared, prodotti da ciascuna feature trovata, sono comparati per determinare le variabili più significative per il modello lineare. A tal proposito, il modello mostra come AI e HI, assieme, minimizzino l’errore standard, ovvero, la diffusione dei data points lontano dalla retta di regressione. In ogni caso, il valore più alto di R-squared, pari a 0.918, misura la robustezza della relazione lineare tra le features e AHI ed è ottenuto considerando tutte e tre i parametri statisticamente significativi trovati. Il valore di R-squared al di sopra di 0.9 indica la validità dei risultati: HI, AI e il numero di cicli del sonno sono parametri ottimali per descrivere linearmente la gravità della Sindrome delle Apnee Notturne. Inoltre, quando fornite ad un algoritmo Fuzzy C-Means per il clustering, determinano una efficace divisione dei pazienti OSAS in due cluster significativi dal punto di vista clinico, uno contenente pazienti maggiormente gravi rispetto all’altro. Più analisi sono state condotte sul dataset dei parkinsoniani per determinare un’adeguata relazione tra le features del sonno e la gravità della malattia di Parkinson, espressa da M30. La Regressione Lineare Multipla con Backward Elimination è applicata per prima. Il modello trova una relazione lineare e statisticamente significativa tra M30 e il tempo totale di sonno (TST), la latenza dello stadio N2, la percentuale di veglia (%W), la veglia dopo l’inizio del sonno (WASO) e l’indice di desaturazione (DI). Ad ogni modo, il valore totale di R-squared, pari a 0.334, è troppo basso per poter essere considerato accettabile. Questo vuol dire che la relazione lineare tra i parametri trovati e M30 è molto debole. Inoltre, R-squared diminuisce drasticamente a 0.031 considerando esclusivamente %W che rappresenta la feature più significativa tra quelle lineari e statisticamente valide, in base all’analisi fatta sui coefficienti di regressione, l’errore standard e l’impatto incrementale su R-squared. La Regressione Lineare, quindi, si rivela essere uno strumento di indagine non appropriato per descrivere la complessità e variabilità del dataset dei parkinsoniani. Per questo motivo, è applicata una Regressione Polinomiale per trovare una relazione non lineare tra le features e M30. Tutte le possibili combinazioni di parametri del sonno, in gruppi da due fino a cinque, sono testate dal modello. Sono effettuate iterazioni consecutive su ogni gruppo di features, incrementando, ad ogni step, il grado dell’equazione polinomiale della curva di regressione, da due fino a dieci. La miglior curva di regressione è quella che minimizza il valore di Root Mean Square Error (RMSE) ed è selezionata tra tutte le possibili curve di grado, da due a dieci, per tutti i possibili gruppi di features che possano descrivere il PD dataset. La curva estratta in ultima istanza è di terzo grado e il corrispondente set di features, composto dal tempo totale di sonno (TST), la latenza dello stadio N2, la percentuale dello stadio N2 (%N2) e l’indice di risveglio (AI), si dimostra essere il miglior risultato non-lineare per il PD dataset. Il relativo valore di RMSE è 0.4. In ogni caso, entrambi i set di features trovati con la Regressione Lineare e Polinomiale, quando forniti all’algoritmo Fuzzy C-Means per il clustering sul solo PD dataset, non sono in grado di determinare la suddivisione in due cluster che separino i parkinsoniani in base alla gravità della malattia. Questa suddivisione clinica in clusters è ottenuta utilizzando la seguente strategia: valori limite di M30, ottenuti dalla letteratura, sono usati per suddividere il PD dataset in due categorie di pazienti, quelli con Parkinson blando (M30<33) e moderato (33<59), dato che pazienti gravi non sono inclusi nel dataset considerato. Tutte le possibili combinazioni di parametri del sonno, in gruppi da due fino a cinque, sono processate con la Principal Component Analysis (PCA), per ridurre la dipendenza tra variabili dello stesso gruppo, e poi portati in ingresso all’algoritmo Fuzzy C-Means, settato per individuare due clusters. L’algoritmo estrae le features che massimizzano il Fuzzy F1-score e la Fuzzy Accuracy, ovvero, i parametri del sonno che contribuiscono a ricreare la suddivisione più efficiente del dataset in due gruppi che possano distinguere soggetti con Parkinson blando e quelli con Parkinson moderato. Con un valore totale di 0.84 per il Fuzzy F1-score e 0.79 per la Fuzzy Accuracy, le features individuate dal modello sono la percentuale di veglia (%W) e l’indice di desaturazione (DI). Gli esiti dello scoring sopra riportati, dimostrano che il risultato ottenuto, non solo è significativo dal punto di vista clinico, ma anche accurato. Clustering sulle comorbidità La procedura di clustering è applicata sull’intero dataset che include i soggetti sani e i pazienti OSAS e PD, per scoprire se è possibile separare le categorie cliniche in tre cluster significativi, anche in presenza di comorbidità. Per tale scopo, la Logica Fuzzy è lo strumento più adeguato che può essere utilizzato per descrivere i contorni non netti tra le classi di pazienti, caratterizzati da patologie sovrapposte. L’algoritmo Fuzzy C-Means, settato su tre centroidi, è utilizzato per testare tutte le possibili combinazioni di features per la totalità del dataset, in gruppi da due fino a cinque variabili. Esso individua il gruppo di parametri del sonno che contribuisce alla suddivisione, più efficiente possibile, del dataset in tre clusters: quello dei sani, dei pazienti apnoici e quello dei soggetti con Parkinson. Il tutto viene fatto applicando la PCA su ogni gruppo, per ridurre la dipendenza tra variabili, e selezionando il set di parametri che massimizza il Fuzzy F1-score e la Fuzzy Accuracy, quando processati tramite il Fuzzy C-Means. I parametri del sonno trovati sono l’indice di apnea-ipopnea (AHI), l’indice di risvegli (AI) e l’indice di desaturazione (DI). Essi determinano una divisione accurata e appropriata del dataset in cluster significativi dal punto di vista clinico, fornendo, allo stesso tempo, elevati valori di Fuzzy F1-score (0.909) e Fuzzy Accuracy (0.85). Analizzando i risultati del clustering ottenuto, si osserva un gradiente di distribuzione dei pazienti PD e OSAS, secondo l’indice AHI. Questo è un comportamento tipico per i soggetti affetti dalla Sindrome delle Apnee Notturne, ma non altrettanto per i parkinsoniani. Ciò dimostra che i pazienti con la malattia di Parkinson vengono classificati dal modello, non in base a features specifiche per la loro patologia, ma principalmente in relazione alla gravità della loro Sindrome delle Apnee, dato che gran parte dei parkinsoniani del dataset sono affetti anche da disturbi della respirazione (caso di comorbidità). Per generalizzare i risultati ed estenderli anche all’utilizzo su dataset differenti e più ampi, che includano anche parkinsoniani senza OSAS, i parametri del sonno direttamente correlati con i disturbi della respirazione sono eliminati dal dataset. Il modello basato sul Fuzzy C-Means testa le features rimanenti ed estrae l’indice di risvegli (AI), la percentuale di sonno REM (%REM), la percentuale di veglia (%W), la percentuale di N1 (%N1) e la percentuale di N2 (%N2) come i parametri che massimizzano il Fuzzy F1-score (0.862) e la Fuzzy Accuracy (0.815). Le misure statistiche della bontà della classificazione diminuiscono rispetto a quelle ottenute nel caso del clustering con solo AHI, AI e DI, ma rimangono totalmente accettabili. Inoltre, i parametri del sonno trovati generalizzano i risultati dello studio. Infatti, essi forniscono informazioni specifiche circa la malattia di Parkinson e la Sindrome delle Apnee Notturne e allo stesso tempo, preservano quelle relative ai casi di comorbidità, rendendo il modello valido anche se applicato a dataset differenti. Da qui deriva il valore e la forza del lavoro di tesi. Per completezza, i parametri estratti tramite l’analisi sulla gravità della Sindrome delle Apnee Notturne e sulla malattia di Parkinson sono impiegati in una procedura di clustering sull’intero dataset. Questo può aiutare a comprendere se features specifiche per i diversi disturbi possano aumentare la precisione del clustering o determinare una distribuzione a gradiente dei data points, secondo la gravità delle patologie, separatamente ma nello stesso momento. A tale scopo, i parametri trovati con la Regressione Lineare per i soggetti OSAS e quelli individuati tramite la Regressione Lineare e Polinomiale e il Fuzzy C-Means per i malati PD, sono aggiunti ai due gruppi di features individuati per il clustering sul dataset totale: AHI, AI, DI e %REM, %N1, %N2, %W, AI, rispettivamente. Similmente, viene effettuato anche un clustering completo con Fuzzy C-Means utilizzando esclusivamente i parametri trovati con la Regressione Lineare per i pazienti OSAS e con Regressione Lineare e Polinomiale e con Fuzzy C-Means per i pazienti PD. Entrambe le analisi mostrano come la combinazione di queste features non è appropriata per la suddivisione dell’intero dataset in tre clusters significativi dal punto di vista clinico, che corrispondano al gruppo dei sani, degli apnoici e parkinsoniani. Questo si verifica perché i parametri del sonno individuati come quelli maggiormente correlati con la gravità della Sindrome delle Apnee Notturne non possono apportare un’informazione significativa anche sul disturbo del Parkinson e viceversa. Infatti, features differenti sono rilevanti per patologie differenti. Per questo motivo, il miglior risultato di clustering ottenuto, è quello che impiega %REM, %W, %N1, %N2 e AI come features, dato che quest’ultime forniscono un’informazione significativa per tutte le categorie di pazienti allo stesso tempo, producendo anche un’efficiente, generalizzabile, clinicamente interpretabile suddivisione dei soggetti anche affetti da comorbidità. Conclusione Lo studio dimostra che è possibile trovare, lavorando con avanzati strumenti analitici e algoritmi di machine learning su parametri del sonno ottenuti dallo scoring di polisomnografie, features correlate con la gravità della Sindrome delle Apnee Notturne e la malattia di Parkinson, anche interpretabili come markers precoci di queste patologie. Allo stesso tempo, l’analisi dimostra la possibilità di effettuare clustering su un dataset complesso, composto da soggetti sani e pazienti affetti da OSAS e Parkinson, dividendoli in tre gruppi clinicamente significativi, che possono essere interpretati per scopi diagnostici, anche in casi di comorbidità. Inoltre, l’analisi può anche essere estesa a dataset più ampi e complessi, dando l’opportunità di creare un sistema di supporto diagnostico che possa identificare automaticamente, con una procedura Fuzzy, le patologie e comorbidità. Studi futuri, in questa direzione, dovrebbero svolgere analisi simili su dataset più ampi, che includano anche pazienti affetti da disturbi differenti come il diabete, problemi cardiovascolari, insonnia etc., per abbracciare la possibilità di un uso diagnostico del modello anche su altre patologie.

Machine learning algorithms applied to polysomnographic data for sleep diseases analysis

Buonaugurio, Alessia
2019/2020

Abstract

Introduction Sleep is a complex process during which body and mind perform an autoregulation of vital, cognitive and recovery activities. The analysis of physiological signals, produced by human beings during sleep, can provide information about people’s health, that could not be appreciated during wake. For this reason, sleep aroused the interest in many research fields. The polysomnographic test is used for sleep investigation. It is conducted on patients at night in a sleep laboratory, supervised by the experts. The test is performed to record physiological signals, such as EEG, EMG, EOG, ECG etc., that later can be scored to provide significant sleep parameters used by clinicians to produce clinical diagnoses. These specific sleep features could be exploited in improving our understanding of sleep disorders and other pathologies and could be used as early markers for prediction of future diseases. Purpose of the thesis In this thesis, Machine Learning algorithms and statistical models are applied on polysomnographic data for sleep diseases analysis, focusing on a typical sleep disease, Obstructive Sleep Apnea Syndrome (OSAS), and a neurodegenerative pathology, Parkinson’s Disease (PD). The goal is to understand if it is possible to individuate sleep parameters that, correlating with the severity of these diseases, can be interpreted as early markers and help in the prediction of pathologies, not only properly of sleep, like OSAS, but also like PD, which is not defined as a sleep disorder, but could also manifest during sleep. Afterwards, how to better describe comorbidities presence is evaluated through clustering models. The final goal of these analyses is to create a diagnostic support system that can automatically identify, with a Fuzzy clustering procedure, pathologies and comorbities. This study is integrated into the European project SPAS (Sleep Physician Assistant System) in collaboration with two European companies, the Inselspital in Bern and SUPSI-Scuola Universitaria Professionale della Svizzera Italiana. Dataset and Technology The analysis is based on thirty sleep parameters obtained from scored polysomnography (PSG). The dataset used is composed of 57 healthy subjects, or controls, 49 Parkinson’s patients and 60 Sleep Apnea patients. The PyCharm development environment is used to program in Python, the language employed to write all the algorithms considered in this analysis. Investigation on the severity of diseases First, an analysis on the severity of Sleep Apnea Syndrome and Parkinson’s Disease is conducted. The aim of the investigation is to extract specific sleep parameters, among all the available ones, that can correlate the best with the grievousness of the considered diseases and recognize them as early markers for the pathology. To do so, indexes of the severity of diseases are taken as a reference: the apnea-hypopnea index (AHI) and the UPDRS-Part III, after 30 minutes wake (M30), are the ones for Sleep Apnea Syndrome and Parkinson’s Disease, respectively. Multiple Linear Regression with Backward Elimination was applied on sleep parameters of OSAS dataset to find a linear relationship of features with AHI. The algorithm indicates the number of sleep cycles, the arousal index (AI) and the hypopnea index (HI) as the statistically relevant features with a P-value below 0.05. Statistical parameters, such as the standardized regression coefficients, standard error and R-squared value, produced by each one of the features found, are compared to determine the most important parameters for the linear model. The model shows how AI and HI, used together, minimize the standard error, that is, the spread of data points along the regression line. Anyways, the higher R-squared value of 0.918, that measures the strength of linear relationship between features and AHI, is reached considering all the three statistically relevant parameters found. An R-squared value greater than 0.9 indicates the effectiveness of the analysis: HI, AI and number of cycles are optimal sleep parameters to describe the severity of Sleep Apnea Syndrome. Moreover, when fed to a Fuzzy C-Means algorithm for clustering on the only PD dataset, they determine the efficient subdivision of OSAS patients in two clinically meaningful clusters, one containing more severe subjects with respect to the other. Several analyses are conducted on Parkinson’s dataset to determine an adequate relationship of sleep parameters with the severity of the disease, expressed by M30. A Multiple Linear Regression analysis with Backward Elimination is applied first. The model finds a linear, statistically meaningful, relationship of M30 with total sleep time (TST), stage N2 latency, percentage of wake (%W), wake after sleep onset (WASO) and desaturation index (DI). Anyways, the total R-squared value of 0.334 is too low to be considered acceptable; this means that the linear relationship between M30 and features found is very weak. Moreover, it decreases drastically to 0.031 when considering only %W, that appears to be the most important, linearly correlated, feature among the ones found, according to the analysis made on regression coefficients, standard error and incremental impact on R-squared. Linear Regression reveals to be a non-suitable model to be applied on a complex and variable dataset as it is the Parkinson’s one. For this reason, a Polynomial Regression is applied to determine a non-linear relationship between sleep parameters and M30. All the possible combinations of features in groups, from two to five, are tested by the model. Consecutive iterations are performed for each group of features by increasing, at each time and from two to ten, the degree of the polynomial equation that represents the regression curve. The best curve is the one minimizing the Root Mean Square Error (RMSE) and it is chosen among all the possible curves of degree from two to ten, for all the possible groups of features that can describe PD dataset. The selected curve of third degree and the corresponding set of features made by total sleep time (TST), stage N2 latency, percentage of stage N2 (%N2) and arousal index (AI), are the most suitable, non-linear result for PD dataset. The related value of RMSE is 0.4. In any case, both features found with Multiple Linear and Polynomial Regression, when employed in Fuzzy C-Means algorithm for clustering, are not able to determine a subdivision in two clusters separating PD patients according to the severity of the disease. This clinically meaningful subdivision is archived using the following strategy: cut-off values of M30, taken from literature, are used to subdivide PD dataset in mild (M30<33) and moderate (33<59) patients, since no severe PD subjects are included in the dataset. All the possible combinations of sleep parameters, in groups from two to five, are processed with Principal Component Analysis (PCA), to reduce intra-variables dependence, and fed to the Fuzzy C-Means algorithm, set to find two cluster centres. The algorithm extracts features that maximize the Fuzzy F1-score and Fuzzy Accuracy that is, sleep parameters contributing to the most efficient subdivision of the dataset in mild and moderate PD clusters. With a total Fuzzy F1-score of 0.84 and total Fuzzy Accuracy of 0.79, features individuated are the percentage of wake (%W) and the desaturation index (DI). Scoring results mentioned above, demonstrate that the clustering outcome obtained is, not only clinically meaningful, but also accurate. Clustering for comorbidities The clustering procedure is applied on the whole dataset including healthy subjects, Sleep Apnea and Parkinson’s patients to find out if it is possible to separate clinical groups in three clinically meaningful clusters, also in presence of comorbidities. For this purpose, the Fuzzy Logic is the most suitable tool that can be used to describe the fuzzy boundaries among classes of patients, characterized by overlapping pathologies. The Fuzzy C-Means algorithm, set to find three centroids, is used to test all the possible combinations of features for the total dataset, in groups from two to five. It individuates the group of sleep parameters that contribute to subdivide, in the most efficient way, the dataset in three clusters: the healthy, Sleep Apnea and Parkinson’s ones. This is done applying PCA to each group of features, to reduce dependence among variables, and selecting the set of sleep parameters that maximizes the Fuzzy F1-score and the Fuzzy Accuracy, when processing them with Fuzzy C-Means. Features extracted are the apnea-hypopnea index (AHI), the arousal index (AI) and the desaturation index (DI). They determine an accurate and suitable division in clinically meaningful clusters with high values of Fuzzy F1-score (0.909) and Fuzzy Accuracy (0.85). Analysing the clustering result obtained, a gradient distribution of PD and OSAS patients, according to AHI, can be noticed. This is a typical behaviour for Sleep Apnea subjects, since AHI is an index of severity of their disease, but it is not ordinary for Parkinson’s patients. This demonstrates that PD patients are clustered, not according to features specific for Parkinson’s disease, but mainly in relation to the severity of their Sleep Apnea Syndrome, since a great part of PD subjects also have breathing disorders (comorbidity case). To generalize results and extend them also to different and larger datasets, including PD patients without OSAS, features directly related to breathing disorders are eliminated from the dataset. The model based on Fuzzy C-Means tested the features left and extracts the arousal index (AI), percentage of REM sleep (%REM), percentage of wake (%W) percentage of N1 (%N1) and percentage of N2 (%N2) as sleep parameters that maximizes the Fuzzy F1-score (0.862) and Fuzzy Accuracy (0.815). Statistical measures of the goodness of classification decrease with respect to the clustering result obtained with AHI, AI and DI, but remain totally acceptable. Moreover, sleep parameters found generalize the study results. Indeed, they provide information specifically about PD and OSAS, as well as preserving the info on cases of comorbidities, becoming valid also if applied to different datasets. Here derives the strength of the study. For completeness, features extracted with the investigation on the severity of Sleep Apnea Syndrome and Parkinson’s Disease are involved in the clustering procedure on the whole dataset. This can help in determining if sleep parameters specifically related to diseases, can increase the precision of clustering or determine a gradient distribution of data points according to the severity of the two pathologies, at the same time. For this purpose, features found with Linear Regression analysis for OSAS patients and sleep parameters individuated by Linear and Polynomial Regression and Fuzzy C-Means models for PD subjects are added to features working for clustering on the complete dataset: AHI, AI, DI and %REM, %N1, %N2, %W, AI, respectively. Similarly, a complete clustering with Fuzzy C-Means using exclusively features found with Linear Regression for OSAS and Linear and Polynomial Regression and Fuzzy C-Means for PD patients is performed. Both the analyses show that these combinations of variables are not appropriate to subdivide the whole dataset in three clinically meaningful clusters corresponding to healthy, OSAS and PD groups. The explanation to this is that sleep parameters found to be the most correlated with the severity of Sleep Apnea Syndrome cannot apport a significant information also concerning Parkinson’s Disease and vice-versa. Indeed, different sleep features are significant for different pathologies. For this reason, the best clustering result that can be obtained is the one archived with %REM, %W, %N1, %N2 and AI, since it selects features that can provide significant information to all the considered categories of patients, at the same time, and producing an efficient, generalizable, clinically interpretable subdivision of subjects also affected by comorbidities. Conclusion The study demonstrates that it is possible, working with advanced analytic tools and machine learning algorithms on sleep parameters obtained from scored polysomnography, to find sleep features correlated with the severity of Sleep Apnea Syndrome and Parkinson’s Disease, interpretable as early markers. At the same time, the analysis demonstrates that it is possible to cluster a complex dataset, composed of healthy subjects and OSAS and PD patients, dividing it in three, clinically meaningful groups, that can be interpreted for diagnostic purposes, also in cases of comorbidities. Moreover, the analysis can also be extended to larger and more complex datasets, giving the opportunity to create a diagnostic support system that can automatically identify, with a Fuzzy clustering procedure, pathologies and comorbities. Future studies in this direction should perform analysis on larger datasets, also involving patients affected by other pathologies, such as diabetes, cardiovascular diseases, insomnia etc., to expand the possibility of a diagnostic use of results also to other disturbs.
FARACI, FRANCESCA DALIA
FIORILLO, LUIGI
ING - Scuola di Ingegneria Industriale e dell'Informazione
2-ott-2020
2019/2020
Introduzione Il sonno è un processo complesso durante il quale corpo e mente contribuiscono all’autoregolazione delle funzioni vitali, cognitive e riparative. L’analisi dei segnali fisiologici, prodotti dagli esseri umani durante il sonno, possono fornire quelle informazioni, circa la salute delle persone, che non sono apprezzabili da svegli. Per questo motivo, l’analisi del sonno ha suscitato l’interesse di molti specialisti appartenenti a campi di ricerca diversi. Il test polisonnografico è usato per analizzare il sonno. È effettuato sui pazienti durante la notte, in laboratori appositi, con la supervisione degli esperti. Il test ha come scopo quello di registrare i segnali fisiologici, come EEG, EMG, EOG, ECG, etc., che successivamente passano attraverso una procedura di scoring per fornire parametri del sonno significativi, usati dai clinici per determinare le diagnosi. Queste features possono rivelarsi fondamentali per accrescere la comprensione dei disturbi del sonno e di altre patologie e possono essere riconosciuti come markers precoci, sfruttati per la predizione di future patologie. Scopo della tesi In questo lavoro di tesi, algoritmi di Machine Learning e modelli statistici sono applicati su dati polisomnografici per l’analisi di disturbi del sonno, focalizzandosi su un disordine tipico del sonno, la Sindrome delle Apnee Notturne Ostruttive (OSAS), e una malattia neurodegenerativa, il Parkinson (PD). Lo scopo è comprendere se è possibile individuare parametri del sonno che, correlandosi con la gravità delle patologie, possano essere interpretati come markers precoci e favorire la predizione di malattie, non solo tipiche del sonno, come OSAS, ma anche disturbi non direttamente legati ad esso, come PD. Inoltre, si valuta anche la possibilità di descrivere la presenza di comorbidità tra i pazienti, tramite procedure di clustering. Lo scopo finale dell’analisi è quello di creare un sistema per il supporto diagnostico che possa identificare automaticamente, tramite una procedura di clusterizzazione Fuzzy, diverse patologie e comorbidità. Questo studio è integrato nel progetto europeo SPAS (Sleep Physician Assistant System), in collaborazione con due compagnie europee, l’Inselpital di Berna e SUPSI-Scuola Universitaria Professionale della Svizzera Italiana. Dataset e Tecnologia L’analisi è basata su trenta parametri del sonno, ottenuti dallo scoring delle polisomnografie (PSG) di 57 soggetti sani, 49 parkinsoniani e 60 pazienti con apnee, che compongono il dataset. PyCharm è l’ambiente di sviluppo utilizzato per programmare in Python, il linguaggio impiegato per la stesura di tutti gli algoritmi considerati in questa tesi. Studio sulla gravità delle patologie Come prima cosa, è condotta un’analisi sulla gravità della Sindrome delle Apnee Notturne e della malattia di Parkinson. Lo scopo è quello di estrarre features specifiche, tra tutte quelle disponibili, che possano correlarsi al meglio con la gravità dei disturbi considerati, in modo da poterle riconoscere come markers precoci per quelle patologie. Per fare questo, sono presi in considerazione gli indici di severità: l’indice di apnea-ipopnea (AHI) e il risultato di UPDRS-Parte III trenta minuti dopo il risveglio (M30) rispettivamente per OSAS e PD. La Regressione Lineare Multipla con Backward Elimination sono applicati sulle features del sonno relative ai pazienti OSAS per trovare una relazione lineare delle variabili con AHI. L’algoritmo indica il numero di cicli del sonno, l’indice di risvegli (AI) e l’indice di ipopnee (HI) come le features statisticamente rilevanti con un P-value inferiore a 0.05. Successivamente, parametri statistici come i coefficienti di regressione standardizzati, l’errore standard e il valore di R-squared, prodotti da ciascuna feature trovata, sono comparati per determinare le variabili più significative per il modello lineare. A tal proposito, il modello mostra come AI e HI, assieme, minimizzino l’errore standard, ovvero, la diffusione dei data points lontano dalla retta di regressione. In ogni caso, il valore più alto di R-squared, pari a 0.918, misura la robustezza della relazione lineare tra le features e AHI ed è ottenuto considerando tutte e tre i parametri statisticamente significativi trovati. Il valore di R-squared al di sopra di 0.9 indica la validità dei risultati: HI, AI e il numero di cicli del sonno sono parametri ottimali per descrivere linearmente la gravità della Sindrome delle Apnee Notturne. Inoltre, quando fornite ad un algoritmo Fuzzy C-Means per il clustering, determinano una efficace divisione dei pazienti OSAS in due cluster significativi dal punto di vista clinico, uno contenente pazienti maggiormente gravi rispetto all’altro. Più analisi sono state condotte sul dataset dei parkinsoniani per determinare un’adeguata relazione tra le features del sonno e la gravità della malattia di Parkinson, espressa da M30. La Regressione Lineare Multipla con Backward Elimination è applicata per prima. Il modello trova una relazione lineare e statisticamente significativa tra M30 e il tempo totale di sonno (TST), la latenza dello stadio N2, la percentuale di veglia (%W), la veglia dopo l’inizio del sonno (WASO) e l’indice di desaturazione (DI). Ad ogni modo, il valore totale di R-squared, pari a 0.334, è troppo basso per poter essere considerato accettabile. Questo vuol dire che la relazione lineare tra i parametri trovati e M30 è molto debole. Inoltre, R-squared diminuisce drasticamente a 0.031 considerando esclusivamente %W che rappresenta la feature più significativa tra quelle lineari e statisticamente valide, in base all’analisi fatta sui coefficienti di regressione, l’errore standard e l’impatto incrementale su R-squared. La Regressione Lineare, quindi, si rivela essere uno strumento di indagine non appropriato per descrivere la complessità e variabilità del dataset dei parkinsoniani. Per questo motivo, è applicata una Regressione Polinomiale per trovare una relazione non lineare tra le features e M30. Tutte le possibili combinazioni di parametri del sonno, in gruppi da due fino a cinque, sono testate dal modello. Sono effettuate iterazioni consecutive su ogni gruppo di features, incrementando, ad ogni step, il grado dell’equazione polinomiale della curva di regressione, da due fino a dieci. La miglior curva di regressione è quella che minimizza il valore di Root Mean Square Error (RMSE) ed è selezionata tra tutte le possibili curve di grado, da due a dieci, per tutti i possibili gruppi di features che possano descrivere il PD dataset. La curva estratta in ultima istanza è di terzo grado e il corrispondente set di features, composto dal tempo totale di sonno (TST), la latenza dello stadio N2, la percentuale dello stadio N2 (%N2) e l’indice di risveglio (AI), si dimostra essere il miglior risultato non-lineare per il PD dataset. Il relativo valore di RMSE è 0.4. In ogni caso, entrambi i set di features trovati con la Regressione Lineare e Polinomiale, quando forniti all’algoritmo Fuzzy C-Means per il clustering sul solo PD dataset, non sono in grado di determinare la suddivisione in due cluster che separino i parkinsoniani in base alla gravità della malattia. Questa suddivisione clinica in clusters è ottenuta utilizzando la seguente strategia: valori limite di M30, ottenuti dalla letteratura, sono usati per suddividere il PD dataset in due categorie di pazienti, quelli con Parkinson blando (M30&lt;33) e moderato (33&lt;59), dato che pazienti gravi non sono inclusi nel dataset considerato. Tutte le possibili combinazioni di parametri del sonno, in gruppi da due fino a cinque, sono processate con la Principal Component Analysis (PCA), per ridurre la dipendenza tra variabili dello stesso gruppo, e poi portati in ingresso all’algoritmo Fuzzy C-Means, settato per individuare due clusters. L’algoritmo estrae le features che massimizzano il Fuzzy F1-score e la Fuzzy Accuracy, ovvero, i parametri del sonno che contribuiscono a ricreare la suddivisione più efficiente del dataset in due gruppi che possano distinguere soggetti con Parkinson blando e quelli con Parkinson moderato. Con un valore totale di 0.84 per il Fuzzy F1-score e 0.79 per la Fuzzy Accuracy, le features individuate dal modello sono la percentuale di veglia (%W) e l’indice di desaturazione (DI). Gli esiti dello scoring sopra riportati, dimostrano che il risultato ottenuto, non solo è significativo dal punto di vista clinico, ma anche accurato. Clustering sulle comorbidità La procedura di clustering è applicata sull’intero dataset che include i soggetti sani e i pazienti OSAS e PD, per scoprire se è possibile separare le categorie cliniche in tre cluster significativi, anche in presenza di comorbidità. Per tale scopo, la Logica Fuzzy è lo strumento più adeguato che può essere utilizzato per descrivere i contorni non netti tra le classi di pazienti, caratterizzati da patologie sovrapposte. L’algoritmo Fuzzy C-Means, settato su tre centroidi, è utilizzato per testare tutte le possibili combinazioni di features per la totalità del dataset, in gruppi da due fino a cinque variabili. Esso individua il gruppo di parametri del sonno che contribuisce alla suddivisione, più efficiente possibile, del dataset in tre clusters: quello dei sani, dei pazienti apnoici e quello dei soggetti con Parkinson. Il tutto viene fatto applicando la PCA su ogni gruppo, per ridurre la dipendenza tra variabili, e selezionando il set di parametri che massimizza il Fuzzy F1-score e la Fuzzy Accuracy, quando processati tramite il Fuzzy C-Means. I parametri del sonno trovati sono l’indice di apnea-ipopnea (AHI), l’indice di risvegli (AI) e l’indice di desaturazione (DI). Essi determinano una divisione accurata e appropriata del dataset in cluster significativi dal punto di vista clinico, fornendo, allo stesso tempo, elevati valori di Fuzzy F1-score (0.909) e Fuzzy Accuracy (0.85). Analizzando i risultati del clustering ottenuto, si osserva un gradiente di distribuzione dei pazienti PD e OSAS, secondo l’indice AHI. Questo è un comportamento tipico per i soggetti affetti dalla Sindrome delle Apnee Notturne, ma non altrettanto per i parkinsoniani. Ciò dimostra che i pazienti con la malattia di Parkinson vengono classificati dal modello, non in base a features specifiche per la loro patologia, ma principalmente in relazione alla gravità della loro Sindrome delle Apnee, dato che gran parte dei parkinsoniani del dataset sono affetti anche da disturbi della respirazione (caso di comorbidità). Per generalizzare i risultati ed estenderli anche all’utilizzo su dataset differenti e più ampi, che includano anche parkinsoniani senza OSAS, i parametri del sonno direttamente correlati con i disturbi della respirazione sono eliminati dal dataset. Il modello basato sul Fuzzy C-Means testa le features rimanenti ed estrae l’indice di risvegli (AI), la percentuale di sonno REM (%REM), la percentuale di veglia (%W), la percentuale di N1 (%N1) e la percentuale di N2 (%N2) come i parametri che massimizzano il Fuzzy F1-score (0.862) e la Fuzzy Accuracy (0.815). Le misure statistiche della bontà della classificazione diminuiscono rispetto a quelle ottenute nel caso del clustering con solo AHI, AI e DI, ma rimangono totalmente accettabili. Inoltre, i parametri del sonno trovati generalizzano i risultati dello studio. Infatti, essi forniscono informazioni specifiche circa la malattia di Parkinson e la Sindrome delle Apnee Notturne e allo stesso tempo, preservano quelle relative ai casi di comorbidità, rendendo il modello valido anche se applicato a dataset differenti. Da qui deriva il valore e la forza del lavoro di tesi. Per completezza, i parametri estratti tramite l’analisi sulla gravità della Sindrome delle Apnee Notturne e sulla malattia di Parkinson sono impiegati in una procedura di clustering sull’intero dataset. Questo può aiutare a comprendere se features specifiche per i diversi disturbi possano aumentare la precisione del clustering o determinare una distribuzione a gradiente dei data points, secondo la gravità delle patologie, separatamente ma nello stesso momento. A tale scopo, i parametri trovati con la Regressione Lineare per i soggetti OSAS e quelli individuati tramite la Regressione Lineare e Polinomiale e il Fuzzy C-Means per i malati PD, sono aggiunti ai due gruppi di features individuati per il clustering sul dataset totale: AHI, AI, DI e %REM, %N1, %N2, %W, AI, rispettivamente. Similmente, viene effettuato anche un clustering completo con Fuzzy C-Means utilizzando esclusivamente i parametri trovati con la Regressione Lineare per i pazienti OSAS e con Regressione Lineare e Polinomiale e con Fuzzy C-Means per i pazienti PD. Entrambe le analisi mostrano come la combinazione di queste features non è appropriata per la suddivisione dell’intero dataset in tre clusters significativi dal punto di vista clinico, che corrispondano al gruppo dei sani, degli apnoici e parkinsoniani. Questo si verifica perché i parametri del sonno individuati come quelli maggiormente correlati con la gravità della Sindrome delle Apnee Notturne non possono apportare un’informazione significativa anche sul disturbo del Parkinson e viceversa. Infatti, features differenti sono rilevanti per patologie differenti. Per questo motivo, il miglior risultato di clustering ottenuto, è quello che impiega %REM, %W, %N1, %N2 e AI come features, dato che quest’ultime forniscono un’informazione significativa per tutte le categorie di pazienti allo stesso tempo, producendo anche un’efficiente, generalizzabile, clinicamente interpretabile suddivisione dei soggetti anche affetti da comorbidità. Conclusione Lo studio dimostra che è possibile trovare, lavorando con avanzati strumenti analitici e algoritmi di machine learning su parametri del sonno ottenuti dallo scoring di polisomnografie, features correlate con la gravità della Sindrome delle Apnee Notturne e la malattia di Parkinson, anche interpretabili come markers precoci di queste patologie. Allo stesso tempo, l’analisi dimostra la possibilità di effettuare clustering su un dataset complesso, composto da soggetti sani e pazienti affetti da OSAS e Parkinson, dividendoli in tre gruppi clinicamente significativi, che possono essere interpretati per scopi diagnostici, anche in casi di comorbidità. Inoltre, l’analisi può anche essere estesa a dataset più ampi e complessi, dando l’opportunità di creare un sistema di supporto diagnostico che possa identificare automaticamente, con una procedura Fuzzy, le patologie e comorbidità. Studi futuri, in questa direzione, dovrebbero svolgere analisi simili su dataset più ampi, che includano anche pazienti affetti da disturbi differenti come il diabete, problemi cardiovascolari, insonnia etc., per abbracciare la possibilità di un uso diagnostico del modello anche su altre patologie.
File allegati
File Dimensione Formato  
TESI_Alessia_Buonaugurio.pdf

non accessibile

Descrizione: Tesi magistrale di Alessia Buonaugurio: "Machine Learning algorithms applied to polysomnographic data for sleep diseases analysis"
Dimensione 3.67 MB
Formato Adobe PDF
3.67 MB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/166353