Latest Self-Supervised Learning (SSL) methodologies are reaching comparable performance with traditional Supervised approaches. A great advantage of these techniques is that it is possible to leverage a huge unlabeled knowledge base to learn powerful and general purpose representations of the input data, without the need of expensive labels. Bootstrap Your Own Chemical Compound (BYOCC) combines a SSL framework, derived from Computer Vision (CV) domain, with a Graph Machine Learning (GML) approach to learn expressive embeddings for chemical compounds, proposing an alternative to purely language-based methods, such as Mol2Vec. Graph structured data allow to incorporate a rich description of molecules’ components and interactions, guaranteeing sample efficiency and generalization capabilities. Huge part of the work involves also monitoring the evolution of the representations in the latent space, trying to understand how the setup of the model influences the quality of the embeddings. Finally, molecular property prediction benchmarks confirm that the model can successfully transfer knowledge to downstream tasks, achieving competitive results with a rather small architecture.

Le più recenti tecniche di apprendimento auto-supersivionate stanno raggiungendo performance comparabili con i più tradizionali approcci supervisionati. Un grande vantaggio è che con queste tecniche è possibile sfruttare una grande quantità di dati non categorizzati per apprendere rappresentazioni espressive e generiche, senza ricorrere a classificazioni dispensiose. Bootstrap Your Own Chemical Compound (BYOCC) combina un paradigma di apprendimento auto-supervisionato, sviluppato in ambito di visione artificiale, con un approccio di apprendimento basato su grafi per imparare rappresentazioni espressive di composti chimici, proponendo un’alternativa a metodi puramente basati sul linguaggio, come Mol2Vec. La struttura a grafo dei dati permette di incorporare una ricca descrizione dei componenti delle molecole e delle loro interazioni, garantendo efficienza e generalizzazione al modello. Gran parte del lavoro riguarda anche il controllo dell’evoluzione delle rappresentazioni nello spazio latente, cercando di capire come le impostazioni scelte per il modello influenzino la qualità delle rappresentazioni. Infine, si eseguono delle validazioni basate sulle previsioni di proprietà molecolari che confermano la capacità del modello di trasferire la conoscenza appresa per fare diverse previsioni, raggiungendo risultati comptetitivi nonostante un’architettura piuttosto contenuta.

Bootstrap Your Own Chemical Compound

De Grandis, Leonardo
2023/2024

Abstract

Latest Self-Supervised Learning (SSL) methodologies are reaching comparable performance with traditional Supervised approaches. A great advantage of these techniques is that it is possible to leverage a huge unlabeled knowledge base to learn powerful and general purpose representations of the input data, without the need of expensive labels. Bootstrap Your Own Chemical Compound (BYOCC) combines a SSL framework, derived from Computer Vision (CV) domain, with a Graph Machine Learning (GML) approach to learn expressive embeddings for chemical compounds, proposing an alternative to purely language-based methods, such as Mol2Vec. Graph structured data allow to incorporate a rich description of molecules’ components and interactions, guaranteeing sample efficiency and generalization capabilities. Huge part of the work involves also monitoring the evolution of the representations in the latent space, trying to understand how the setup of the model influences the quality of the embeddings. Finally, molecular property prediction benchmarks confirm that the model can successfully transfer knowledge to downstream tasks, achieving competitive results with a rather small architecture.
MENICHETTI, GIULIA
ING - Scuola di Ingegneria Industriale e dell'Informazione
16-lug-2024
2023/2024
Le più recenti tecniche di apprendimento auto-supersivionate stanno raggiungendo performance comparabili con i più tradizionali approcci supervisionati. Un grande vantaggio è che con queste tecniche è possibile sfruttare una grande quantità di dati non categorizzati per apprendere rappresentazioni espressive e generiche, senza ricorrere a classificazioni dispensiose. Bootstrap Your Own Chemical Compound (BYOCC) combina un paradigma di apprendimento auto-supervisionato, sviluppato in ambito di visione artificiale, con un approccio di apprendimento basato su grafi per imparare rappresentazioni espressive di composti chimici, proponendo un’alternativa a metodi puramente basati sul linguaggio, come Mol2Vec. La struttura a grafo dei dati permette di incorporare una ricca descrizione dei componenti delle molecole e delle loro interazioni, garantendo efficienza e generalizzazione al modello. Gran parte del lavoro riguarda anche il controllo dell’evoluzione delle rappresentazioni nello spazio latente, cercando di capire come le impostazioni scelte per il modello influenzino la qualità delle rappresentazioni. Infine, si eseguono delle validazioni basate sulle previsioni di proprietà molecolari che confermano la capacità del modello di trasferire la conoscenza appresa per fare diverse previsioni, raggiungendo risultati comptetitivi nonostante un’architettura piuttosto contenuta.
File allegati
File Dimensione Formato  
2024_07_DeGrandis_Tesi.pdf

accessibile in internet per tutti

Descrizione: Testo tesi
Dimensione 8.56 MB
Formato Adobe PDF
8.56 MB Adobe PDF Visualizza/Apri
2024_07_DeGrandis_ExecutiveSummary.pdf

accessibile in internet per tutti

Descrizione: Executive summary
Dimensione 1.32 MB
Formato Adobe PDF
1.32 MB Adobe PDF Visualizza/Apri

I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/10589/223397