论文阅读_BERT-wwm

2022-09-16 13:32:03

1 介绍

英文题目：Pre-Training with Whole Word Masking for Chinese BERT

中文题目：中文BERT的全词掩码预训练

论文地址：https://arxiv.org/pdf/1906.08101.pdf

领域：自然语言处理

发表时间：2019

作者：Yiming Cui，社会计算和信息检索研究中心，哈工大，讯飞

出处：第二届“讯飞杯”中文机器阅读理解评测，CMRC 2018

被引量：255

代码和数据：https://github.com/ymcui/Chinese-BERT-wwm

阅读时间：2022.05.10

2 读后感

中文和英文不同，一般通过词而非字来表意，而分词也有难度，BERT以字单位建模，这样损失了词义。文中将之前用于英文的全词MASK方法应用于中文，文中没什么公式，原理也简单，但对中文确实是一个重要的方法，该模型也被广泛使用。

3 介绍

BERT(2019)利用Transformer，未标注的数据，综合上下文信息，使模型达到很好效果，之后，BERT的作者又提出升级版WWM，它利用全词MASK进一步提升BERT效果，本文将WWM方法应用于中文。用中文词作MASK以替代字为单位。如图-1所示，它同时遮蔽了来源于一个词的所有字：

文中模型利用简体和繁体语料训练，在多种任务及不同规模模型实验中表现出很好效果。

文章贡献如下：

提出了中文全词遮蔽的预训练模型
实验证明了模型的先进性
提出了一些使用该模型的技巧

4 方法

使用与之前方法相同的数据和参数训练模型。

下载最新的Wikipedia，清洗（去掉HTML标记）后，约13.6M行，在分词方面，使用LPT（哈工大分词模型）实现中文分词（Chinese Word Segmentation ：CWS），在训练时长度分别设为128和512，以支持长文。

模型基于中文的BERT模型训练，使用TensorFlow框架，在 Google Cloud TPU v3 with 128G HBM上训练（模型参数见论文2.3节）。

对于下游任务也没做改动，只把基本模型换成了文中模型。下游任务包括：阅读理解（MRC），自然语言推理（NLI），句子分类（SC），句子对匹配（SPM），文档分类（DC）。

5 实验

实验数据集如下：

将文中模型与BERT，ERNIE对比：

实验效果表太多，简单贴一个看看：

6 技巧

初始化学习率是最重要的超参数。
BERT和BERT-WWM共享几乎相同的最佳初始学习率，但与ERNIE不同。
BERT和BERT-wwm使用维基百科训练，它对正式文本效果更好；而ERNIE使用更大规模数据训练，它对较随意的文本效果也好。
在长文本任务中（如阅读理解，文档分类）建议使用BERT或BERT-wwm。
如果任务与预训练数据差异大，建议使用其它预训练模型。
如果希望在性能上有进一步的提升，建议训练自己的模型，如果无法训练，则可选择使用下游任务精调。
对于繁体中文，建立使用BERT或BERT-wwm（ERNIE在训练时去掉了繁体数据）。

论文阅读_BERT-wwm

1 介绍

2 读后感

3 介绍

4 方法

5 实验

6 技巧

继续阅读

考证大全 | 证券从业资格考试

敲黑板！2021年证券从业考试考点预测

2021年银行从业考试考情介绍,果断收藏!

证券从业合格证书什么时候打印？有哪些注意事项？

【干货满满】初级银行从业考试《个人理财》重点梳理

2020年经济师考试，难吗？

初级银行从业资格证有什么用？

MBA提前面试纯干货分享

MBA值得学么

吴恩达logistic回归实现

【人工智能行业大师访谈1】吴恩达采访 Geoffery Hinton

深度学习模型分析人类复杂疾病的准确性

【趋高机器视觉】机器视觉技术原理解析及解决方案

解码器用于语义分割：数据依赖的解码可以实现灵活的特征聚合

cs231n斯坦福基于卷积神经网络的CV学习笔记（一）KNN和线性分类器/分类器损失/反向传播一，KNN图像分类算法二，线性分类器三，线性分类器损失四，反向传播五，神经网络

详解STM32单片机的堆栈