天天看点

深度学习:BERT 模型结构

作者:架构笔记

BERT(Bidirectional Encoder Representations from Transformers)是由Google在2018年提出的一种深度学习模型,用于自然语言处理任务。

深度学习:BERT 模型结构

BERT使用一种特殊的词元分析器,即WordPiece。WordPiece遵循子词词元化规律。

当使用WordPiece进行分词时,我们首先会检查该词是否存在于词表中。如果该词已经在词表中了,那么就把它作为一个标记。如果该词不在词表中,那么就继续将该词分成子词,检查子词是否在词表中。如果该子词在词表中,那么就把它作为一个标记。但如果子词还是不在词表中,那么继续分割子词。我们通过这种方式不断地进行拆分,检查子词是否在词表中,直到字母级别(无法再分)。

这样,将给定的输入句子转换为标记。然后将这些标记依次送入标记嵌入层、分段嵌入层和位置嵌入层,并获得嵌入结果。

深度学习:BERT 模型结构

BERT可以理解单词的上下文含义,并根据上下文生成嵌入向量。它不像word2vec那样的无上下文模型,后者生成的嵌入向量与上下文无关。

接下来,将所有的嵌入值相加,并输入给BERT。

BERT模型在大量的无标签文本数据上进行预训练,通常使用Wikipedia和BooksCorpus等大规模数据集。

预训练任务包括“Masked Language Model”(MLM,掩码语言模型)和“Next Sentence Prediction”(NSP,下句预测)。

掩码语言模型(MLM)的主要思想是在输入句子中随机遮挡(或掩码)一些词汇,并要求模型预测这些被遮挡的词。这种策略使得BERT能够双向地学习上下文信息。

下句预测(NSP)是一个用于训练BERT模型的策略,它是一个二分类任务。在下句预测任务中,我们向BERT模型提供两个句子,它必须预测第二个句子是否是第一个句子的下一句。

深度学习:BERT 模型结构

预训练之后,BERT可以在特定的下游任务上进行微调,如文本分类、命名实体识别、问答等。

#BERT##Transformer##AI人工智能#

继续阅读