Language models applied on patent domain presents a big challenge due to the complexity and specific-expertise required. This project has developed a solution extending pre-training phase of language models on this domain. The solution implemented leverages GPT-2 model to create a multitask language model for the patent domain relying on prompt-engineering using 11.8 M patents and a training dataset of 140M samples. This pre-trained model on patents is carrying out text infilling, part-of-patent generation and patent coherence classification. Even if original GPT-2 was not trained directly for text infilling, it is outperforming Circa-SciBERT and BERT models with 0.641 on mean semantic similarity. On patent elements generation, the highest mean semantic similarity achieved is on Abstract created from Claim with 0.679. Regarding to patent coherence classification, more than 94% of the generated patent elements are classified as feasible elements of the same patent. This model has already been publicly available and it can be accessed via GT4SD Python package.
I modelli linguistici applicati al dominio dei brevetti rappresentano una grande sfida a causa della complessità e delle competenze specifiche richieste. Questo lavoro ha sviluppato una soluzione che estende la fase di pre-formazione dei modelli linguistici in questo dominio. La soluzione implementata sfrutta il modello GPT-2 per creare un modello linguistico multitasking per il dominio dei brevetti basato su un approccio di tipo prompt-engineering, utilizzando 11,8 milioni di brevetti e un set di dati di addestramento di 140 milioni di campioni. Il modello pre-addestrato ottenuta effetta il riempimento del testo, la generazione di elementi di brevetto e la classificazione della coerenza del brevetto. Anche se il modello GPT-2 originale non è stato progettato per il riempimento del testo, sta superando i modelli Circa-SciBERT e BERT con un valore di 0,641 sulla somiglianza semantica media. Sulla generazione di elementi di brevetto, la più alta somiglianza semantica media raggiunta è su ``Abstract creato da Claim'' con un valore di 0,679. Per quanto riguarda la classificazione della coerenza del brevetto, più del 94% degli elementi di brevetto generati sono classificati come elementi fattibili dello stesso brevetto. Il modello ottenuto è rilasciato pubblicamente, e può essere utilizzato tramite la libreria Python GT4SD.
Language models for patents : exploring prompt engineering for the patent domain
BERRIOS TORRES, ANTONIO
2021/2022
Abstract
Language models applied on patent domain presents a big challenge due to the complexity and specific-expertise required. This project has developed a solution extending pre-training phase of language models on this domain. The solution implemented leverages GPT-2 model to create a multitask language model for the patent domain relying on prompt-engineering using 11.8 M patents and a training dataset of 140M samples. This pre-trained model on patents is carrying out text infilling, part-of-patent generation and patent coherence classification. Even if original GPT-2 was not trained directly for text infilling, it is outperforming Circa-SciBERT and BERT models with 0.641 on mean semantic similarity. On patent elements generation, the highest mean semantic similarity achieved is on Abstract created from Claim with 0.679. Regarding to patent coherence classification, more than 94% of the generated patent elements are classified as feasible elements of the same patent. This model has already been publicly available and it can be accessed via GT4SD Python package.File | Dimensione | Formato | |
---|---|---|---|
Language_models_for_patents__exploring_prompt_engineering_for_the_patent_domain.pdf
accessibile in internet per tutti
Descrizione: Language models for patents: exploring prompt engineering for the patent domain
Dimensione
2.53 MB
Formato
Adobe PDF
|
2.53 MB | Adobe PDF | Visualizza/Apri |
I documenti in POLITesi sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/10589/186082