In recent years, advancements in cancer diagnosis have improved survival rates, especially for early-stage cancers, but challenges persist in managing primary and secondary cancer. Precision medicine offers personalized therapies, and considering primary tumor location enhances prognosis for metastatic tumors. Current gold-standard methods, such as biopsy and microscopic examination, vary in performance due to factors like pathologist expertise and access to molecular tests. This thesis addresses the need for effective and privacy-preserving primary tumor classification, proposing a cloud-based solution using Homomorphic Encryption (HE) and Deep Learning (DL) algorithms on patient genomes. Single Nucleotide Variations (SNV) and Copy Number Variations (CNV) are crucial genetic mutations impacting protein-coding genes, which are effectively handled by DL methods. HE ensures secure computations on encrypted data without decryption. Built on the 2020 iDASH competition framework on primary tumor classification, the proposed Convolutional Neural Network (CNN) achieves competitive results, with an 85.43% accuracy and a microAUC of 98.20%. This positions it favorably among top-performing iDASH2020 entries, offering rapid computation in less than 25 seconds for the entire test set prediction. The thesis contributes to advancing secure Machine Learning (ML) for healthcare, addressing challenges in computational examinations and privacy concerns.
Negli ultimi anni, i progressi nella diagnosi del cancro hanno migliorato i tassi di sopravvivenza, soprattutto per i tumori in fase iniziale, ma persistono sfide nella gestione dei tumori primari e secondari. La medicina di precisione offre terapie personalizzate, per le quali la considerazione della localizzazione del tumore primario migliora la prognosi per i tumori metastatici. Gli attuali metodi gold-standard, come la biopsia e l’esame microscopico, variano in termini di prestazioni a causa di fattori quali l’esperienza del patologo e l’accesso ai test molecolari. Questa tesi risponde alla necessità di una classificazione efficace e rispettosa della privacy dei tumori primari, proponendo una soluzione basata sul cloud che utilizza la crittografia omomorfa (CO) e algoritmi di Deep Learning (DL) basati sui genomi dei pazienti. Le Variazioni di Singolo Nucleotide (VSN) e le Variazioni del Numero di Copie (VNC) sono mutazioni genetiche cruciali che hanno un impatto sui geni che codificano le proteine e che vengono gestite efficacemente dai metodi DL. La CO garantisce calcoli sicuri su dati crittografati senza la necessità di decifrazione. Prendendo spunto dal concorso iDASH 2020 che propone la classificazione della locazione di undici turmori primari, la Convolutional Neural Network (CNN) proposta ottiene risultati competitivi, con un’accuratezza di 85, 43% e una microAUC di 98, 20%. Ciò la posiziona favorevolmente tra le soluzioni più performanti della competizione, offrendo un calcolo rapido in meno di 25 secondi per la previsione dell’intero set di test. La tesi contribuisce all’implementazione di tecniche di Machine Learning (ML) sicuro per la classificazione in ambito medical, affrontando le sfide dell’esame computazionale e della privacy.
Privacy preserving deep learning for cancer classification
Colombo, Aurora Anna Francesca
2022/2023
Abstract
In recent years, advancements in cancer diagnosis have improved survival rates, especially for early-stage cancers, but challenges persist in managing primary and secondary cancer. Precision medicine offers personalized therapies, and considering primary tumor location enhances prognosis for metastatic tumors. Current gold-standard methods, such as biopsy and microscopic examination, vary in performance due to factors like pathologist expertise and access to molecular tests. This thesis addresses the need for effective and privacy-preserving primary tumor classification, proposing a cloud-based solution using Homomorphic Encryption (HE) and Deep Learning (DL) algorithms on patient genomes. Single Nucleotide Variations (SNV) and Copy Number Variations (CNV) are crucial genetic mutations impacting protein-coding genes, which are effectively handled by DL methods. HE ensures secure computations on encrypted data without decryption. Built on the 2020 iDASH competition framework on primary tumor classification, the proposed Convolutional Neural Network (CNN) achieves competitive results, with an 85.43% accuracy and a microAUC of 98.20%. This positions it favorably among top-performing iDASH2020 entries, offering rapid computation in less than 25 seconds for the entire test set prediction. The thesis contributes to advancing secure Machine Learning (ML) for healthcare, addressing challenges in computational examinations and privacy concerns.| File | Dimensione | Formato | |
|---|---|---|---|
|
Colombo_Aurora_Thesis.pdf
accessibile in internet solo dagli utenti autorizzati
Dimensione
2.36 MB
Formato
Adobe PDF
|
2.36 MB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/217923