GPT（GenerativePre-trainedTransformer）和BERT（BidirectionalEnco

作者：面向知识库的工程师 2023-04-03 22:49:00

GPT（Generative Pre-trained Transformer）和BERT（Bidirectional Encoder Representations from Transformers）都是基于自然语言处理任务的预训练模型，但它们有许多不同之处。

区别：

1. 目标任务不同：GPT用于生成式任务，如文本生成、对话生成等；BERT用于判别式任务，如文本分类、问答等。

2. Masked Language Model（MLM）的不同：GPT是单向语言模型，因此在预训练时只使用了左侧的词语信息，提供了一种时间上的处理机制，包括使得所有信息都可用和使得较早输入的信息在后续时间被保留；而BERT是双向的，它使用了MLM来训练模型，这意味着在预训练过程中，模型随机遮盖一部分词汇并学习预测缺失的词语，这样可以有效地处理双向信息。

3. 架构不同：GPT使用了Transformer的decoder部分；BERT使用了Transformer的encoder部分。

联系：

1. 都是基于Transformer架构的预训练模型；

2. 都使用了无监督的预训练方法来学习通用的语言表示；

3. 都在NLP任务中取得了领先的效果。

GPT（GenerativePre-trainedTransformer）和BERT（BidirectionalEnco

GPT（GenerativePre-trainedTransformer）和BERT（BidirectionalEnco

继续阅读

【Python学习笔记】- Day6

Transformer系列：Classification --＞ ViT (ICLR2021)1. Motivation2. Method 3.Experiment

Windows版本的Google word2vec和Stanford GloVe工具

seq2sqe与attenton实现聊天机器人

奋战聊天机器人（四）自然语言处理中的文本分类nltk中的贝叶斯分类器

从词向量衡量标准到全局向量的词嵌入模型GloVe再到一词多义的解决方式衡量标准Evaluation引子全局向量的词嵌入应用对一词多义的思考Reference

GloVe与word2vec的区别，及GloVe的缺陷

统计学习大作业-BERT模型1 文本处理-BERT模型2 参考资料：

如何使用PyTorch构建Transformer模型实现语言生成任务

如何使用Transformer模型实现语言分类任务

机器是如何学会说话的？大型语言模型揭秘之旅！

anaconda中科大镜像

《论文阅读》SAPBERT: Speaker-Aware Pretrained BERT for Emotion Recognition in Conversation

NLP从入门到放弃_IBM Model1IBM Model1

SVM支持向量机二（Lagrange Duality）SVM支持向量机二（Lagrange Duality）

解码器用于语义分割：数据依赖的解码可以实现灵活的特征聚合