天天看点

GPT(GenerativePre-trainedTransformer)和BERT(BidirectionalEnco

作者:面向知识库的工程师

GPT(Generative Pre-trained Transformer)和BERT(Bidirectional Encoder Representations from Transformers)都是基于自然语言处理任务的预训练模型,但它们有许多不同之处。

区别:

1. 目标任务不同:GPT用于生成式任务,如文本生成、对话生成等;BERT用于判别式任务,如文本分类、问答等。

2. Masked Language Model(MLM)的不同:GPT是单向语言模型,因此在预训练时只使用了左侧的词语信息,提供了一种时间上的处理机制,包括使得所有信息都可用和使得较早输入的信息在后续时间被保留;而BERT是双向的,它使用了MLM来训练模型,这意味着在预训练过程中,模型随机遮盖一部分词汇并学习预测缺失的词语,这样可以有效地处理双向信息。

3. 架构不同:GPT使用了Transformer的decoder部分;BERT使用了Transformer的encoder部分。

联系:

1. 都是基于Transformer架构的预训练模型;

2. 都使用了无监督的预训练方法来学习通用的语言表示;

3. 都在NLP任务中取得了领先的效果。

GPT(GenerativePre-trainedTransformer)和BERT(BidirectionalEnco
GPT(GenerativePre-trainedTransformer)和BERT(BidirectionalEnco
GPT(GenerativePre-trainedTransformer)和BERT(BidirectionalEnco

继续阅读