Machine learning strategies for multi-omics investigation of RAS-associated mutations in colorectal cancer

Colorectal cancer remains a formidable clinical challenge, with RAS genes mutations critically influencing therapeutic resistance and disease progression. This thesis introduces a computational pipeline leveraging machine learning techniques to dissect RAS-associated mutational signatures in colorectal cancer. The methodological framework is structured as a multi-stage analytical workflow. Initially, candidate driver genes and mutational hotspots were identified, providing the basis for subsequent feature engineering. Various feature encoding strategies were devised from mutational counts within these candidate regions. Then, diverse classification algorithms were deployed to differentiate between RAS-mutated and non-RAS-mutated samples, allowing a systematic evaluation of each feature encoding discriminative power. A rigorous comparative analysis of driver prediction tools and hotspot detection methods was conducted, with their efficacy assessed through classification performance within their respective feature spaces. Subsequently, gene-level transcriptomic data were integrated with the most informative mutational encoding, improving the discriminative power of the classifiers. Finally, feature importance analyses isolated candidate genes implicated in RAS-driven oncogenesis.

Il cancro del colon-retto rimane una sfida clinica notevole, con le mutazioni dei geni RAS che influenzano in modo critico la resistenza terapeutica e la progressione della malattia. Questa tesi introduce una pipeline computazionale che sfrutta tecniche di machine learning per analizzare dati mutazionali nel cancro del colon-retto, in particolare nei pazienti RAS-mutati. Il quadro metodologico è strutturato in più fasi. Inizialmente, sono stati identificati i geni più significativamente mutati e gli hotspot mutazionali, fornendo la base per il successivo feature engineering. Diverse strategie di codifica delle feature sono state sviluppate a partire dai conteggi delle mutazioni presenti in queste regioni candidate. Successivamente, sono stati impiegati vari algoritmi di classificazione per differenziare tra campioni mutati nei geni RAS e campioni non mutati, permettendo una valutazione sistematica del potere discriminante di ciascuna codifica delle feature. È stata condotta un'analisi comparativa rigorosa degli strumenti di predizione dei geni più significativamente mutati e dei metodi di individuazione degli hotspot, con l'efficacia valutata attraverso le prestazioni di classificazione nei rispettivi spazi delle feature. In seguito, i dati transcriptomici a livello genico sono stati integrati con la codifica mutazionale più informativa, migliorando il potere discriminante dei classificatori. Infine, è stata condotta un'analisi dell'importanza delle feature sui modelli più performanti, al fine di individuare le caratteristiche più rilevanti per la classificazione dei campioni con mutazioni RAS. I geni associati a tali feature sono interpretati come potenzialmente coinvolti nell'oncogenesi mediata da mutazioni nei geni della famiglia RAS.