Quantitative Structure-Activity Relationship (QSAR) modeling is widely employed in the pharmaceutical industry to predict properties such as the toxicity of chemical compounds using machine learning techniques. These QSAR models are used to prioritize compounds for experimental testing. However, accurately assessing the confidence and reliability of predictions from these models, as well as defining an applicability domain, remains a challenge. This study explores the integration of conformal prediction methods, which provide confidence levels for each prediction, into QSAR modeling to address these challenges. The focus is on two key aspects: defining the applicability domain (AD) and improving the interpretability of QSAR models. Three feature selection methods were explored and adapted for conformal predictors to reduce the complexity of QSAR models by selecting relevant molecular descriptors. These methods were tested on several real-world datasets, demonstrating their ability to define an applicability domain while enhancing model interpretability. While the proposed methods yielded valid results and are designed for generalizability, they were tested with a specific machine learning algorithm, a single nonconformity measure, and on large, balanced datasets. Adaptations would be necessary to apply these methods to smaller or imbalanced datasets, broadening their applicability. In conclusion, the combination of feature selection techniques with conformal prediction shows promise for improving the confidence and interpretability of QSAR predictions.

La modellizzazione QSAR (Quantitative Structure-Activity Relationship) è ampiamente utilizzata nell’industria farmaceutica per prevedere proprietà come la tossicità dei composti chimici tramite tecniche di apprendimento automatico. Tali modelli QSAR vengono impiegati per prioritizzare i composti da testare sperimentalmente. Tuttavia, valutare con precisione la fiducia e l’affidabilità delle previsioni di questi modelli, così come definire un dominio di applicabilità, rimane una sfida. Questo studio esplora l’integrazione delle metodologie di predizione conforme, che forniscono livelli di fiducia per ciascuna previsione, nella modellizzazione QSAR per affrontare tali problematiche. L’attenzione è posta su due aspetti chiave: la definizione del dominio di applicabilità (AD) e il miglioramento dell’interpretabilità dei modelli QSAR. Sono state esplorate e adattate tre metodologie di selezione delle caratteristiche per i predittori conformali, con l’obiettivo di ridurre la complessità dei modelli QSAR selezionando descritttori molecolari rilevanti. Questi metodi sono stati testati su diversi set di dati reali, dimostrando la loro capacità di definire un dominio di applicabilità migliorando al contempo l’interpretabilità dei modelli. Sebbene i metodi proposti abbiano prodotto risultati validi e siano stati progettati per essere generalizzabili, sono stati testati con un algoritmo di apprendimento automatico specifico, una singola misura di non conformità e su dataset di grandi dimensioni e bilanciati. Saranno necessari degli adattamenti per applicare questi metodi a set di dati più piccoli o sbilanciati, ampliando così la loro applicabilità. In conclusione, la combinazione delle tecniche di selezione delle caratteristiche con la predizione conforme mostra un potenziale promet- tente per migliorare la fiducia e l’interpretabilità delle previsioni QSAR.

Feature selection for conformal prediction in drug discovery

BIGNAND, LAURE MARIE
2023/2024

Abstract

Quantitative Structure-Activity Relationship (QSAR) modeling is widely employed in the pharmaceutical industry to predict properties such as the toxicity of chemical compounds using machine learning techniques. These QSAR models are used to prioritize compounds for experimental testing. However, accurately assessing the confidence and reliability of predictions from these models, as well as defining an applicability domain, remains a challenge. This study explores the integration of conformal prediction methods, which provide confidence levels for each prediction, into QSAR modeling to address these challenges. The focus is on two key aspects: defining the applicability domain (AD) and improving the interpretability of QSAR models. Three feature selection methods were explored and adapted for conformal predictors to reduce the complexity of QSAR models by selecting relevant molecular descriptors. These methods were tested on several real-world datasets, demonstrating their ability to define an applicability domain while enhancing model interpretability. While the proposed methods yielded valid results and are designed for generalizability, they were tested with a specific machine learning algorithm, a single nonconformity measure, and on large, balanced datasets. Adaptations would be necessary to apply these methods to smaller or imbalanced datasets, broadening their applicability. In conclusion, the combination of feature selection techniques with conformal prediction shows promise for improving the confidence and interpretability of QSAR predictions.
ING - Scuola di Ingegneria Industriale e dell'Informazione
10-ott-2024
2023/2024
La modellizzazione QSAR (Quantitative Structure-Activity Relationship) è ampiamente utilizzata nell’industria farmaceutica per prevedere proprietà come la tossicità dei composti chimici tramite tecniche di apprendimento automatico. Tali modelli QSAR vengono impiegati per prioritizzare i composti da testare sperimentalmente. Tuttavia, valutare con precisione la fiducia e l’affidabilità delle previsioni di questi modelli, così come definire un dominio di applicabilità, rimane una sfida. Questo studio esplora l’integrazione delle metodologie di predizione conforme, che forniscono livelli di fiducia per ciascuna previsione, nella modellizzazione QSAR per affrontare tali problematiche. L’attenzione è posta su due aspetti chiave: la definizione del dominio di applicabilità (AD) e il miglioramento dell’interpretabilità dei modelli QSAR. Sono state esplorate e adattate tre metodologie di selezione delle caratteristiche per i predittori conformali, con l’obiettivo di ridurre la complessità dei modelli QSAR selezionando descritttori molecolari rilevanti. Questi metodi sono stati testati su diversi set di dati reali, dimostrando la loro capacità di definire un dominio di applicabilità migliorando al contempo l’interpretabilità dei modelli. Sebbene i metodi proposti abbiano prodotto risultati validi e siano stati progettati per essere generalizzabili, sono stati testati con un algoritmo di apprendimento automatico specifico, una singola misura di non conformità e su dataset di grandi dimensioni e bilanciati. Saranno necessari degli adattamenti per applicare questi metodi a set di dati più piccoli o sbilanciati, ampliando così la loro applicabilità. In conclusione, la combinazione delle tecniche di selezione delle caratteristiche con la predizione conforme mostra un potenziale promet- tente per migliorare la fiducia e l’interpretabilità delle previsioni QSAR.
File allegati
File Dimensione Formato  
2024_10_Bignand_01.pdf

non accessibile

Descrizione: Thesis Text
Dimensione 1.4 MB
Formato Adobe PDF
1.4 MB Adobe PDF   Visualizza/Apri
2024_10_Bignand_02.pdf

non accessibile

Descrizione: Executive Summary
Dimensione 637.11 kB
Formato Adobe PDF
637.11 kB Adobe PDF   Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/226953