Whenever external beam radiotherapy is employed on normal tissue to irradiate tumors, side effects may arise as drawbacks of this non-invasive treatment. In particular, toxicities happen when the radiation damages healthy tissue and, in radiosensitive patients, can occur years after radiotherapy impairing quality of life. These complications can depend on several factors, among which are the radiation dose, the volume of the organ irradiated, and the patient’s demographics. Coupled with environmental factors, illnesses’ impact on individuals can be affected by changes in either one or many of their genes. RADprecise international study aims at personalizing radiotherapy treatment for cancer patients by improving prediction models for the risk of long-term side effects after radiotherapy including innovative biomarkers. Within the RADprecise project, this thesis attempts to include genetic information effects in late-toxicities risk models for breast-cancer patients through an interpretable selection of the most informative genetic variants. Risk models describing radiosensitivity could then be employed by physicians to take more informed individual decisions in cancer treatment. Several complexities arise from the radiogenomics context: high-dimensionality of the data, unbalancing classes where a minority class of patients presents toxicities, imputation and noise in genomic data collection, and the presence of high-order interaction among genes influencing the toxicities development. Moreover, multivariate analysis is necessary for comprehensive treatment decisions and for feature selection since genetic variants determining inter-individual differences in radiosensitivity are only partly toxicity-specific. The methodology implemented in this work performs a multi-outcome selection of the genetic variants, tackling all the aforementioned complexities, to produce a set of informative features for each of the toxicities measured in the study and general radiosensitivity, accounting for the correlation structure present between the outcomes. The developed model consists of an ensemble method based on anomaly detection autoencoders whose reconstruction error is studied to detect radiosensitive patients and discover the genetic variants correlated with toxicities arising. Each anomaly detection autoencoder within the ensemble is enriched with a denoising technique that robustifies the analysis to the noise of imputed genomic data. The model proprieties are studied in a simulation setting. Finally, the method is applied to a case study out of REQUITE database provided within the RADprecise project.

Ogni volta che la radioterapia a fasci esterni viene impiegata sui tessuti normali per irradiare i tumori, possono insorgere effetti collaterali come inconvenienti causati dall'irradiazione dei tessuti sani. Queste tossicità possono manifestarsi nei pazienti radiosensibili, anni dopo la radioterapia, compromettendo la loro qualità di vita. L'insorgenza di complicazioni può dipendere da diversi fattori, tra cui la quantità di radiazioni, il volume dell'organo irradiato e le caratteristiche demografiche del paziente. Insieme ai fattori ambientali, l'impatto delle malattie sugli individui può essere influenzato da cambiamenti nel loro DNA di uno o più geni. Il progetto internazionale RADprecise mira a personalizzare il trattamento radioterapico per i pazienti oncologici migliorando i modelli di previsione del rischio di effetti collaterali a lungo termine dopo la radioterapia includendo biomarcatori innovativi. Nell'ambito del progetto RADprecise, questa tesi cerca di includere gli effetti genetici nei modelli di rischio di tossicità tardiva per le pazienti affette da cancro al seno, attraverso una selezione interpretabile delle varianti genetiche più informative. I modelli di rischio che descrivono la radiosensibilità del paziente potrebbero quindi essere utilizzati dai medici per prendere decisioni individuali più informate nel trattamento del cancro. Diverse complessità derivano dal contesto clinico: elevata dimensionalità dei dati, classi non equilibrate in cui una minoranza di pazienti presenta tossicità, imputazione e rumore nella raccolta dei dati genomici e presenza di interazioni di alto ordine tra i geni che influenzano lo sviluppo delle tossicità. Inoltre, è necessario fare inferenza su più effetti collaterali insieme per decisioni terapeutiche complete, e utilizzare tecniche multivariate per la selezione delle caratteristiche, poiché le varianti genetiche che determinano le differenze interindividuali nella radiosensibilità sono solo in parte specifiche della tossicità. La metodologia implementata in questo lavoro esegue una selezione delle varianti genetiche considerando l'insieme delle tossicità, affrontando tutte le complessità sopra menzionate, per produrre un insieme di variazioni genetiche informative per ciascuna delle tossicità che tengano conto della struttura di correlazione presente tra di esse. La metodologia è basata su un apprendimento ensemble (o d'insieme) che sfrutta come base autoencoder per il rilevamento di anomalie, il cui errore di ricostruzione è studiato per individuare i pazienti radiosensibili e scoprire le covariate correlate all'insorgenza di effetti collaterali. Ogni autoencoder all'interno dell'ensamble è arricchito con una tecnica di riduzione del rumore che rende l'analisi più robusta rispetto a possibili errori di imputazione. Le proprietà del modello sono studiate in un contesto di simulazione. Infine, il metodo è stato applicato a un caso di studio estratto dal database REQUITE fornito nell'ambito del progetto RADprecise.

Multi-outcome feature selection via anomaly detection autoencoders: an application to radiogenomics in breast cancer patients

Mapelli, Alessia
2021/2022

Abstract

Whenever external beam radiotherapy is employed on normal tissue to irradiate tumors, side effects may arise as drawbacks of this non-invasive treatment. In particular, toxicities happen when the radiation damages healthy tissue and, in radiosensitive patients, can occur years after radiotherapy impairing quality of life. These complications can depend on several factors, among which are the radiation dose, the volume of the organ irradiated, and the patient’s demographics. Coupled with environmental factors, illnesses’ impact on individuals can be affected by changes in either one or many of their genes. RADprecise international study aims at personalizing radiotherapy treatment for cancer patients by improving prediction models for the risk of long-term side effects after radiotherapy including innovative biomarkers. Within the RADprecise project, this thesis attempts to include genetic information effects in late-toxicities risk models for breast-cancer patients through an interpretable selection of the most informative genetic variants. Risk models describing radiosensitivity could then be employed by physicians to take more informed individual decisions in cancer treatment. Several complexities arise from the radiogenomics context: high-dimensionality of the data, unbalancing classes where a minority class of patients presents toxicities, imputation and noise in genomic data collection, and the presence of high-order interaction among genes influencing the toxicities development. Moreover, multivariate analysis is necessary for comprehensive treatment decisions and for feature selection since genetic variants determining inter-individual differences in radiosensitivity are only partly toxicity-specific. The methodology implemented in this work performs a multi-outcome selection of the genetic variants, tackling all the aforementioned complexities, to produce a set of informative features for each of the toxicities measured in the study and general radiosensitivity, accounting for the correlation structure present between the outcomes. The developed model consists of an ensemble method based on anomaly detection autoencoders whose reconstruction error is studied to detect radiosensitive patients and discover the genetic variants correlated with toxicities arising. Each anomaly detection autoencoder within the ensemble is enriched with a denoising technique that robustifies the analysis to the noise of imputed genomic data. The model proprieties are studied in a simulation setting. Finally, the method is applied to a case study out of REQUITE database provided within the RADprecise project.
FRANCO, NICOLA RARES
MASSI, MICHELA
ING - Scuola di Ingegneria Industriale e dell'Informazione
20-dic-2022
2021/2022
Ogni volta che la radioterapia a fasci esterni viene impiegata sui tessuti normali per irradiare i tumori, possono insorgere effetti collaterali come inconvenienti causati dall'irradiazione dei tessuti sani. Queste tossicità possono manifestarsi nei pazienti radiosensibili, anni dopo la radioterapia, compromettendo la loro qualità di vita. L'insorgenza di complicazioni può dipendere da diversi fattori, tra cui la quantità di radiazioni, il volume dell'organo irradiato e le caratteristiche demografiche del paziente. Insieme ai fattori ambientali, l'impatto delle malattie sugli individui può essere influenzato da cambiamenti nel loro DNA di uno o più geni. Il progetto internazionale RADprecise mira a personalizzare il trattamento radioterapico per i pazienti oncologici migliorando i modelli di previsione del rischio di effetti collaterali a lungo termine dopo la radioterapia includendo biomarcatori innovativi. Nell'ambito del progetto RADprecise, questa tesi cerca di includere gli effetti genetici nei modelli di rischio di tossicità tardiva per le pazienti affette da cancro al seno, attraverso una selezione interpretabile delle varianti genetiche più informative. I modelli di rischio che descrivono la radiosensibilità del paziente potrebbero quindi essere utilizzati dai medici per prendere decisioni individuali più informate nel trattamento del cancro. Diverse complessità derivano dal contesto clinico: elevata dimensionalità dei dati, classi non equilibrate in cui una minoranza di pazienti presenta tossicità, imputazione e rumore nella raccolta dei dati genomici e presenza di interazioni di alto ordine tra i geni che influenzano lo sviluppo delle tossicità. Inoltre, è necessario fare inferenza su più effetti collaterali insieme per decisioni terapeutiche complete, e utilizzare tecniche multivariate per la selezione delle caratteristiche, poiché le varianti genetiche che determinano le differenze interindividuali nella radiosensibilità sono solo in parte specifiche della tossicità. La metodologia implementata in questo lavoro esegue una selezione delle varianti genetiche considerando l'insieme delle tossicità, affrontando tutte le complessità sopra menzionate, per produrre un insieme di variazioni genetiche informative per ciascuna delle tossicità che tengano conto della struttura di correlazione presente tra di esse. La metodologia è basata su un apprendimento ensemble (o d'insieme) che sfrutta come base autoencoder per il rilevamento di anomalie, il cui errore di ricostruzione è studiato per individuare i pazienti radiosensibili e scoprire le covariate correlate all'insorgenza di effetti collaterali. Ogni autoencoder all'interno dell'ensamble è arricchito con una tecnica di riduzione del rumore che rende l'analisi più robusta rispetto a possibili errori di imputazione. Le proprietà del modello sono studiate in un contesto di simulazione. Infine, il metodo è stato applicato a un caso di studio estratto dal database REQUITE fornito nell'ambito del progetto RADprecise.
File allegati
File Dimensione Formato  
Executive_Summary_Alessia_Mapelli.pdf

accessibile in internet per tutti

Descrizione: Executive Summary
Dimensione 935.48 kB
Formato Adobe PDF
935.48 kB Adobe PDF Visualizza/Apri
Thesis_Alessia_Mapelli.pdf

accessibile in internet per tutti

Descrizione: Thesis
Dimensione 2.43 MB
Formato Adobe PDF
2.43 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/196729