Since the early 1900’s scientists have searched for a valid method to determine the toxicity of chemicals and to understand toxic processes. In the years, innovation and discoveries have revolutionized the entire industry of pharmacology and chemistry. Testing chemicals started from the trial on animals, passed through the tests in vitro to arrive at the brand new technology of the test on-chip. Today the registered chemical structures are about 28 million, while experimental toxicity data are available for a few hundred thousands of them. Defining properties and effects for all the available chemicals is such a huge challenge due to the cost of the experimentation and to legislative restrictions. Therefore prediction is the only available solution, but it poses many challenges in terms of accuracy and interpretability. Recently, advancements in understanding the human brain provided the basis to create new machines that can think, solve problems, find patterns and even create artworks. In the last several years the biggest enterprises and research groups compete in order to develop the best model that can recognize images and texts, and act as the human brain. The goal of our work is to apply these new cutting-edge researches on machine learning and deep learning to the field of biology and toxicology. The aim is to discover the link between the molecular form of a chemical and its biological effects. To do that we adopted Deep Learning methods, modified the most successful architectures, Inception and LSTM, and combined them to build a model called T-Tox. This model contains three main parts, Toxception, SMILES-Net and C-Tox that respectively perform image analysis, text analysis and classification. Our results are based on a dataset of about 20000 molecules tested for mutagenicity with the AMES test, an in-vitro assay on Salmonella. The results obtained by the analysis of the architecture proposed overcome the current state of the art. Besides, the model does not have any knowledge of chemistry. We proposed a method to extract the new knowledge generated from the architecture comparing it with the existing one, obtaining good results especially in the structural alert generation. The advantages of the new approach over traditional model building are that the chemical structure, as obtained from public databases, is a sufficient input and there is no need for specific expertise in chemistry and biology. Moreover, the system is robust to noise. On the other hand, the disadvantage is the computation time needed to build the model.

Dai primi anni 90, la scienza cerca un metodo valido per determinare la tossicità di un composto chimico. Negli anni l’innovazione e le nuove scoperte hanno rivoluzionato completamente l’industria della chimica e della farmacologia. I test sui composti sono partiti dai trial sugli animali, passando per i test In Vitro fino ad arrivare ai test in chip. Ad oggi i composti chimici registrati sono circa 28 milioni di cui solo su alcune migliaia sono stati eseguiti gli esperimenti tossicologici. Definire le proprietà e gli effetti per tutte le sostanze è un progetto talmente grande da essere quasi irrealizzabile. Per questo motivo la predizione è l’unica soluzione possibile per ottenere i dati di tossicità per tutti i composti. Questo è però ostacolato da diverse problematiche riguardanti l’accuratezza e l’interpretabilità dei risultati. Recenti sviluppi nella com- presione del cervello umano hanno permesso di creare macchine in grado di pensare, risolvere problemi, ricercare pattern e perfino creare opere d’arte. Negli ultimi anni, industrie e ricercatori, stanno gareggiando per sviluppare il modello migliore nella clas- sificazione di testo ed immagini, come lo farebbe un uomo. L’obbiettivo della nostra ricerca è quello di utilizzare questi nuovi metodi di machine learning e deep learning e applicarli al campo della tossicologia. Lo scopo è quello di scoprire le connessioni tra la struttura molecolare e gli effetti collaterali di un composto chimico. Per fare questo, abbiamo descritto e modificato le migliori architetture, Inception e LSTM. Le abbiamo poi combinate per creare un nuovo modello chiamato T-Tox.Quessto modello è composto da 3 parti principali: Toxception, SMILES-Net, C-Tox, che si occupano rispettivamente di analisi delle immagini, analisi del testo e classificatione. I nos- tri risultati sono basati su un database di circa 20000 molecole testate attraverso l’AMES test. Questo test è un test In Vitro che sfrutta la Salmonella. I risulati ot- tenuti dall’analisi dell’architettura proposta sorpassano lo stato dell’arte. In aggiunta il modello non contiene nessuna base di conoscenza, questo rende possibile l’analisi e l’estrazione di quello che il modello ha imparato. Questo permette inoltre di comparare la conoscenza estratta con della conoscenza esistente. In particolare i risultati migliori sono ottenuti nella generazione delle SA. I vantaggi di questo nuovo approccio sono principalmente nella mancanza di conoscenza iniziale che permette di non dover avere esperienza umana per poter creare un modello simile. Inoltre il sistema è resistente al rumore. Lo svantaggio però è il tempo computazionale richiesto per creare il modello.

T-Tox : a new deep learning model to predict mutagenicity of chemicals

ZANOLI, FRANCESCO
2017/2018

Abstract

Since the early 1900’s scientists have searched for a valid method to determine the toxicity of chemicals and to understand toxic processes. In the years, innovation and discoveries have revolutionized the entire industry of pharmacology and chemistry. Testing chemicals started from the trial on animals, passed through the tests in vitro to arrive at the brand new technology of the test on-chip. Today the registered chemical structures are about 28 million, while experimental toxicity data are available for a few hundred thousands of them. Defining properties and effects for all the available chemicals is such a huge challenge due to the cost of the experimentation and to legislative restrictions. Therefore prediction is the only available solution, but it poses many challenges in terms of accuracy and interpretability. Recently, advancements in understanding the human brain provided the basis to create new machines that can think, solve problems, find patterns and even create artworks. In the last several years the biggest enterprises and research groups compete in order to develop the best model that can recognize images and texts, and act as the human brain. The goal of our work is to apply these new cutting-edge researches on machine learning and deep learning to the field of biology and toxicology. The aim is to discover the link between the molecular form of a chemical and its biological effects. To do that we adopted Deep Learning methods, modified the most successful architectures, Inception and LSTM, and combined them to build a model called T-Tox. This model contains three main parts, Toxception, SMILES-Net and C-Tox that respectively perform image analysis, text analysis and classification. Our results are based on a dataset of about 20000 molecules tested for mutagenicity with the AMES test, an in-vitro assay on Salmonella. The results obtained by the analysis of the architecture proposed overcome the current state of the art. Besides, the model does not have any knowledge of chemistry. We proposed a method to extract the new knowledge generated from the architecture comparing it with the existing one, obtaining good results especially in the structural alert generation. The advantages of the new approach over traditional model building are that the chemical structure, as obtained from public databases, is a sufficient input and there is no need for specific expertise in chemistry and biology. Moreover, the system is robust to noise. On the other hand, the disadvantage is the computation time needed to build the model.
GINI, GIUSEPPINA
ING - Scuola di Ingegneria Industriale e dell'Informazione
20-dic-2018
2017/2018
Dai primi anni 90, la scienza cerca un metodo valido per determinare la tossicità di un composto chimico. Negli anni l’innovazione e le nuove scoperte hanno rivoluzionato completamente l’industria della chimica e della farmacologia. I test sui composti sono partiti dai trial sugli animali, passando per i test In Vitro fino ad arrivare ai test in chip. Ad oggi i composti chimici registrati sono circa 28 milioni di cui solo su alcune migliaia sono stati eseguiti gli esperimenti tossicologici. Definire le proprietà e gli effetti per tutte le sostanze è un progetto talmente grande da essere quasi irrealizzabile. Per questo motivo la predizione è l’unica soluzione possibile per ottenere i dati di tossicità per tutti i composti. Questo è però ostacolato da diverse problematiche riguardanti l’accuratezza e l’interpretabilità dei risultati. Recenti sviluppi nella com- presione del cervello umano hanno permesso di creare macchine in grado di pensare, risolvere problemi, ricercare pattern e perfino creare opere d’arte. Negli ultimi anni, industrie e ricercatori, stanno gareggiando per sviluppare il modello migliore nella clas- sificazione di testo ed immagini, come lo farebbe un uomo. L’obbiettivo della nostra ricerca è quello di utilizzare questi nuovi metodi di machine learning e deep learning e applicarli al campo della tossicologia. Lo scopo è quello di scoprire le connessioni tra la struttura molecolare e gli effetti collaterali di un composto chimico. Per fare questo, abbiamo descritto e modificato le migliori architetture, Inception e LSTM. Le abbiamo poi combinate per creare un nuovo modello chiamato T-Tox.Quessto modello è composto da 3 parti principali: Toxception, SMILES-Net, C-Tox, che si occupano rispettivamente di analisi delle immagini, analisi del testo e classificatione. I nos- tri risultati sono basati su un database di circa 20000 molecole testate attraverso l’AMES test. Questo test è un test In Vitro che sfrutta la Salmonella. I risulati ot- tenuti dall’analisi dell’architettura proposta sorpassano lo stato dell’arte. In aggiunta il modello non contiene nessuna base di conoscenza, questo rende possibile l’analisi e l’estrazione di quello che il modello ha imparato. Questo permette inoltre di comparare la conoscenza estratta con della conoscenza esistente. In particolare i risultati migliori sono ottenuti nella generazione delle SA. I vantaggi di questo nuovo approccio sono principalmente nella mancanza di conoscenza iniziale che permette di non dover avere esperienza umana per poter creare un modello simile. Inoltre il sistema è resistente al rumore. Lo svantaggio però è il tempo computazionale richiesto per creare il modello.
Tesi di laurea Magistrale
File allegati
File Dimensione Formato  
2018_12_Zanoli.pdf

Open Access dal 04/12/2019

Descrizione: Testo principale della tesi
Dimensione 9.35 MB
Formato Adobe PDF
9.35 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/144738