深度学习：BERT 模型结构

作者：架构笔记 2023-09-24 08:37:00

BERT（Bidirectional Encoder Representations from Transformers）是由Google在2018年提出的一种深度学习模型，用于自然语言处理任务。

BERT使用一种特殊的词元分析器，即WordPiece。WordPiece遵循子词词元化规律。

当使用WordPiece进行分词时，我们首先会检查该词是否存在于词表中。如果该词已经在词表中了，那么就把它作为一个标记。如果该词不在词表中，那么就继续将该词分成子词，检查子词是否在词表中。如果该子词在词表中，那么就把它作为一个标记。但如果子词还是不在词表中，那么继续分割子词。我们通过这种方式不断地进行拆分，检查子词是否在词表中，直到字母级别（无法再分）。

这样，将给定的输入句子转换为标记。然后将这些标记依次送入标记嵌入层、分段嵌入层和位置嵌入层，并获得嵌入结果。

BERT可以理解单词的上下文含义，并根据上下文生成嵌入向量。它不像word2vec那样的无上下文模型，后者生成的嵌入向量与上下文无关。

接下来，将所有的嵌入值相加，并输入给BERT。

BERT模型在大量的无标签文本数据上进行预训练，通常使用Wikipedia和BooksCorpus等大规模数据集。

预训练任务包括“Masked Language Model”（MLM，掩码语言模型）和“Next Sentence Prediction”（NSP，下句预测）。

掩码语言模型（MLM）的主要思想是在输入句子中随机遮挡（或掩码）一些词汇，并要求模型预测这些被遮挡的词。这种策略使得BERT能够双向地学习上下文信息。

下句预测（NSP）是一个用于训练BERT模型的策略，它是一个二分类任务。在下句预测任务中，我们向BERT模型提供两个句子，它必须预测第二个句子是否是第一个句子的下一句。

预训练之后，BERT可以在特定的下游任务上进行微调，如文本分类、命名实体识别、问答等。

#BERT##Transformer##AI人工智能#

深度学习：BERT 模型结构

继续阅读

斯坦福团队研发新型深度学习模型，能预测碳捕集引起的地表位移

王子奇的私服穿搭经，建议长相板正的男生深度学习下！

深度思考：视觉深度学习模型一定越大越好吗？

南方测绘推荐 | 刘丽：联合深度学习与面向对象分析的卫宁北山露天矿山采场信息提取

【技术】汽车端到端大模型：AI对驾驶规则的深度学习

“AI”科普丨太全了！多模态深度学习的综述！

学前教育｜董欣然：在游戏工作坊中促进幼儿深度学习——以“彭城美食街”为例

深度学习硬件的进步：GPU、TPU 等

生成式AI原理技术详解（一）——神经网络与深度学习

听说你缺GPU？送你一份轻量级深度学习的最全总结！

100种分析思维模型之：深度学习

深度学习与化学语言模型结合，用于药物从头设计，登Nature子刊

深度学习算法在素材隐义标签生成中应用研究

预测瞬态熔池变化，美国开发深度学习替代原位PBF-LB粉末床金属熔融3D打印过程监测

看了极客湾的测评，发现A卡的专业性能其实也不弱A卡的ai性能和深度学习不行，没有CUDA核心根本运行不了，软件都进不去，

最高170W的性能！联想顶级移动图站上新啦近日，联想ThinkPadP系列终于更新——ThinkPadP16AI2024