According to Cancer Today, in 2040 in Europe, there will be an estimated 567,564 new breast cancer cases and 160,104 breast cancer deaths. An anomaly in the amount of protein in a cell is likely to contribute to the onset of the disease. For this reason, it is possible that the study and treatment of cancer will benefit from the study of proteins. The human proteins number over 20,000, but at the same time the number of samples will not be of the same order of magnitude as the number of features, owing to the complexity of the measurement of the amount of protein in a cell; consequently, it makes sense to try high-dimensional data analysis. These days, the use of high-dimensional data has already become widespread, and as a result a great deal of effort has been put into a huge variety of strategies to extract the information from high-dimensional data. So as to find the proteins linked to the breast cancer subtypes, it makes sense to move from a high-dimensional space to a low-dimensional space via dimensionality reduction in general and feature selection in particular. Unfortunately, feature selection is largely based on a body of specialist knowledge, but in this particular case it is not possible to require so, since our comprehension of the inner workings of the human body is not complete yet. We hereby propose a new wrapper method for the generation and evaluation of subsets of proteins. Whilst the first experiment focuses on the breast cancer data kindly offered by Karolinska Institutet, the second experiment combines the external data on protein complexes and the internal data on protein content. The results show that large numbers of subsets of features are up to 8 times better at clustering the samples than the state-of-the-art classification of breast cancer sufferers.

Secondo Cancer Today, nel 2040 in Europa, ci saranno circa 567,564 nuovi casi di cancro al seno e 160,104 decessi per cancro al seno. È probabile che un’anomalia nella quantità di proteine in una cellula contribuisca all’inizio della malattia. Per questa ragione, è possibile che lo studio e il trattamento del cancro beneficino dello studio delle proteine. Le proteine umane ammontano a più di 20,000, ma allo stesso tempo il numero di campioni non sarà dello stesso ordine di grandezza del numero di caratteristiche a causa della complessità della misurazione della quantità di proteine in una cellula; perciò è logico provare l’analisi dati di alta dimensionalità. Oggigiorno, l’uso di dati di alta dimensionalità è ormai molto diffuso ovunque e, perciò, un notevole impegno è stato dedicato a una grande varietà di piani per estrarre l’informazioni dai dati di alta dimensionalità. Per trovare le proteine collegate ai sottotipi di cancro al seno, ha senso spostarsi da uno spazio di alta dimensionalità a uno spazio di bassa dimensionalità tramite la riduzione della dimensionalità in generale e la selezione delle caratteristiche in particolare. Sfortunatamente, la selezione delle caratteristiche è basata molto su un corpus di conoscenze specialistiche, ma nello specifico non è possibile richiederlo, poiché la nostra comprensione dei meccanismi interni del corpo umano non è ancora completa. Con la presente tesi proponiamo un nuovo metodo wrapper di generazione e valutazione di sottoinsiemi di proteine. Mentre il primo esperimento si concentra sui dati sul cancro al seno gentilmente offerti da Karolinska Institutet, il secondo esperimento combina i dati esterni sui complessi proteici e i dati interni sul contenuto proteico. I risultati mostrano che a raggruppare i campioni un gran numero di sottoinsiemi di caratteristiche sono fino a 8 volte migliori dello stato dell’arte della classificazione delle persone affette da cancro al seno.

Domain expertise-agnostic feature selection for the analysis of breast cancer data

POZZOLI, SUSANNA
2018/2019

Abstract

According to Cancer Today, in 2040 in Europe, there will be an estimated 567,564 new breast cancer cases and 160,104 breast cancer deaths. An anomaly in the amount of protein in a cell is likely to contribute to the onset of the disease. For this reason, it is possible that the study and treatment of cancer will benefit from the study of proteins. The human proteins number over 20,000, but at the same time the number of samples will not be of the same order of magnitude as the number of features, owing to the complexity of the measurement of the amount of protein in a cell; consequently, it makes sense to try high-dimensional data analysis. These days, the use of high-dimensional data has already become widespread, and as a result a great deal of effort has been put into a huge variety of strategies to extract the information from high-dimensional data. So as to find the proteins linked to the breast cancer subtypes, it makes sense to move from a high-dimensional space to a low-dimensional space via dimensionality reduction in general and feature selection in particular. Unfortunately, feature selection is largely based on a body of specialist knowledge, but in this particular case it is not possible to require so, since our comprehension of the inner workings of the human body is not complete yet. We hereby propose a new wrapper method for the generation and evaluation of subsets of proteins. Whilst the first experiment focuses on the breast cancer data kindly offered by Karolinska Institutet, the second experiment combines the external data on protein complexes and the internal data on protein content. The results show that large numbers of subsets of features are up to 8 times better at clustering the samples than the state-of-the-art classification of breast cancer sufferers.
BAHRI, LEILA
EL HOSARY, AMIRA
GIRDZIJAUSKAS, SARUNAS
ING - Scuola di Ingegneria Industriale e dell'Informazione
4-ott-2019
2018/2019
Secondo Cancer Today, nel 2040 in Europa, ci saranno circa 567,564 nuovi casi di cancro al seno e 160,104 decessi per cancro al seno. È probabile che un’anomalia nella quantità di proteine in una cellula contribuisca all’inizio della malattia. Per questa ragione, è possibile che lo studio e il trattamento del cancro beneficino dello studio delle proteine. Le proteine umane ammontano a più di 20,000, ma allo stesso tempo il numero di campioni non sarà dello stesso ordine di grandezza del numero di caratteristiche a causa della complessità della misurazione della quantità di proteine in una cellula; perciò è logico provare l’analisi dati di alta dimensionalità. Oggigiorno, l’uso di dati di alta dimensionalità è ormai molto diffuso ovunque e, perciò, un notevole impegno è stato dedicato a una grande varietà di piani per estrarre l’informazioni dai dati di alta dimensionalità. Per trovare le proteine collegate ai sottotipi di cancro al seno, ha senso spostarsi da uno spazio di alta dimensionalità a uno spazio di bassa dimensionalità tramite la riduzione della dimensionalità in generale e la selezione delle caratteristiche in particolare. Sfortunatamente, la selezione delle caratteristiche è basata molto su un corpus di conoscenze specialistiche, ma nello specifico non è possibile richiederlo, poiché la nostra comprensione dei meccanismi interni del corpo umano non è ancora completa. Con la presente tesi proponiamo un nuovo metodo wrapper di generazione e valutazione di sottoinsiemi di proteine. Mentre il primo esperimento si concentra sui dati sul cancro al seno gentilmente offerti da Karolinska Institutet, il secondo esperimento combina i dati esterni sui complessi proteici e i dati interni sul contenuto proteico. I risultati mostrano che a raggruppare i campioni un gran numero di sottoinsiemi di caratteristiche sono fino a 8 volte migliori dello stato dell’arte della classificazione delle persone affette da cancro al seno.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
2019_10_Pozzoli.pdf

accessibile in internet per tutti

Dimensione 877.88 kB
Formato Adobe PDF
877.88 kB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/150482