Next Generation Sequencing (NGS) technology has made it possible, in recent decades, to obtain a lot of mutational data in a short time and at a low cost. Based on the wealth of mutational data generated NGS technology, this thesis focuses on colorectal cancer patients (CRC) with mutations in the RAS gene family (KRAS, NRAS, HRAS), since these are patients who, unfortunately, do not respond to conventional therapies. Our main objective is the identification in RAS-mutated CRC patients of co-occurrent mutations, whose actionability may be further investigated. The study aims to enhance a previous workflow developed for identifying the most frequently co-occurring mutated genes in a RAS-mutated subpopulation of CRC patients. Given the promising results of that work, this thesis project aims to improve the encoding and selection phases, needed to transform the available mutational data into relevant features for Machine Learning techniques. Additionally, it seeks to optimize the prediction phase and its outcomes by evaluating and improving the previously proposed Data Science-based pipeline. The objective is to identify the most effective strategy in terms of performance and highlight the relevant features in the proposed methods. The resulting relevant features could thus be a starting point for personalized therapies for CRC patients who do not respond to conventional therapies.

La tecnologia Next Generation Sequencing (NGS) ha reso possibile, negli ultimi decenni, ottenere una grande quantità di dati mutazionali in breve tempo e a basso costo. Sulla base della ricchezza di dati mutazionali generati dalla tecnologia NGS, questa tesi si concentra sui pazienti affetti da cancro del colon-retto (CRC) con mutazioni nella famiglia dei geni RAS (KRAS, NRAS, HRAS), poiché questi pazienti, purtroppo, non rispondono alle terapie convenzionali. Il nostro obiettivo principale è l’identificazione, nei pazienti affetti da CRC con mutazioni RAS, di mutazioni co-occorrenti, le cui influenzabilità devono essere ulteriormente investigate. Lo studio mira a migliorare il flusso di lavoro precedente sviluppato per identificare i geni mutati più frequentemente co-occorrenti in una sotto-popolazione di pazienti affetti da CRC con mutazioni RAS. Dati i promettenti risultati di quel lavoro, questo progetto di tesi mira a migliorare le fasi di codifica e selezione, necessarie per trasformare i dati mutazionali disponibili in caratteristiche rilevanti per le tecniche di apprendimento automatico. Inoltre, si propone di ottimizzare la fase di predizione e i suoi risultati attraverso la valutazione e il miglioramento della pipeline precedentemente proposta basata sulla Data Science. L’obiettivo è identificare la migliore strategia in termini di prestazioni e mettere in evidenza le caratteristiche rilevanti preservate nei metodi proposti. Le caratteristiche rilevanti risultanti potrebbero essere quindi un punto di partenza per terapie personalizzate per i pazienti affetti da CRC che non rispondono alle terapie convenzionali.

Identification of RAS co-occurrent mutations in colorectal cancer patients: workflow assessment and enhancement

Chieruzzi, Maria Laura
2021/2022

Abstract

Next Generation Sequencing (NGS) technology has made it possible, in recent decades, to obtain a lot of mutational data in a short time and at a low cost. Based on the wealth of mutational data generated NGS technology, this thesis focuses on colorectal cancer patients (CRC) with mutations in the RAS gene family (KRAS, NRAS, HRAS), since these are patients who, unfortunately, do not respond to conventional therapies. Our main objective is the identification in RAS-mutated CRC patients of co-occurrent mutations, whose actionability may be further investigated. The study aims to enhance a previous workflow developed for identifying the most frequently co-occurring mutated genes in a RAS-mutated subpopulation of CRC patients. Given the promising results of that work, this thesis project aims to improve the encoding and selection phases, needed to transform the available mutational data into relevant features for Machine Learning techniques. Additionally, it seeks to optimize the prediction phase and its outcomes by evaluating and improving the previously proposed Data Science-based pipeline. The objective is to identify the most effective strategy in terms of performance and highlight the relevant features in the proposed methods. The resulting relevant features could thus be a starting point for personalized therapies for CRC patients who do not respond to conventional therapies.
CASCIANELLI, SILVIA
ING - Scuola di Ingegneria Industriale e dell'Informazione
4-mag-2023
2021/2022
La tecnologia Next Generation Sequencing (NGS) ha reso possibile, negli ultimi decenni, ottenere una grande quantità di dati mutazionali in breve tempo e a basso costo. Sulla base della ricchezza di dati mutazionali generati dalla tecnologia NGS, questa tesi si concentra sui pazienti affetti da cancro del colon-retto (CRC) con mutazioni nella famiglia dei geni RAS (KRAS, NRAS, HRAS), poiché questi pazienti, purtroppo, non rispondono alle terapie convenzionali. Il nostro obiettivo principale è l’identificazione, nei pazienti affetti da CRC con mutazioni RAS, di mutazioni co-occorrenti, le cui influenzabilità devono essere ulteriormente investigate. Lo studio mira a migliorare il flusso di lavoro precedente sviluppato per identificare i geni mutati più frequentemente co-occorrenti in una sotto-popolazione di pazienti affetti da CRC con mutazioni RAS. Dati i promettenti risultati di quel lavoro, questo progetto di tesi mira a migliorare le fasi di codifica e selezione, necessarie per trasformare i dati mutazionali disponibili in caratteristiche rilevanti per le tecniche di apprendimento automatico. Inoltre, si propone di ottimizzare la fase di predizione e i suoi risultati attraverso la valutazione e il miglioramento della pipeline precedentemente proposta basata sulla Data Science. L’obiettivo è identificare la migliore strategia in termini di prestazioni e mettere in evidenza le caratteristiche rilevanti preservate nei metodi proposti. Le caratteristiche rilevanti risultanti potrebbero essere quindi un punto di partenza per terapie personalizzate per i pazienti affetti da CRC che non rispondono alle terapie convenzionali.
File allegati
File Dimensione Formato  
2023_05_Chieruzzi.pdf

accessibile in internet per tutti

Dimensione 1.85 MB
Formato Adobe PDF
1.85 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/204556