Motivation
对于中文预训练模型,字级别的信息不够,比如“老板”不是指“老”“板”,需要有词级别的补充。因此,利用word-lattice结构整合词级别信息。
Lattice-BERT 论文阅读Motivation 创新点 创新点

1. lattice-bert
2. lattice position attention 和 Masked segment prediction
self attention 为什么有根号2分之1
整体架构
Lattice Position Attention
所有层共享
绝对位置
第i个位置和第j个位置的相对distance [−128, 128]
r表示第i和第j的位置关系 常数
attension score捕捉了不同方面的lattice graph信息
预训练任务:Masked Segment Prediction
加入了lattice 结构,一个字可能出现在多个地方,不能直接随机mask。
只mask某个字,模型可能通过别的词获取信息,而不是通过上下文获取信息。
segment:子图中的字不被包含在别的子图中。一个segment一起mask。
sentence order prediction 任务
实验
CLUE
Lattice 构造
开放域高频词102K,Aho-Corasick automaton工具
不在词典中的英文词和数字保持字符序列,在词典中的,仍用lattice
预训练细节
base 12层 hidden768 head 12
lite 6层 hidden 512 head 8
为了避免词表过大,用了albert的降维
参数100M
batch 8K、100K steps
语料:Chinese Wiki,知乎、网页新闻; 18.3G
BERT-Our 是用相同的数据、结构、超参、WWM,用字作为输入。
- 比单粒度的性能好,切比多粒度的AMBERT好。说明能更好的利用多粒度的信息
- 在lite size下,与BERT-Our的区别更大,且与base size的性能接近。多粒度信息使得不需要特别深的模型也能效果可比。
消融实验
Rel表示相对距离b、Dis表示位置关系r
没有绝对位置的消融实验?
How LBERT Improves Fine-grained PLMs?
TNEWS 数据集中,相较于长于平均长度的文本,在更短的文本上,LBERT的表现更好。
CSL任务上,能获取词不同方面的信息。
NER任务上,能更好的解决嵌套结构。
在不同任务上,attention score的分布不同,能根据任务的不同,自动的利用不同方面、粒度的信息。