天天看点

Lattice-BERT 论文阅读Motivation 创新点

Motivation

对于中文预训练模型,字级别的信息不够,比如“老板”不是指“老”“板”,需要有词级别的补充。因此,利用word-lattice结构整合词级别信息。

Lattice-BERT 论文阅读Motivation 创新点
 创新点

1. lattice-bert

2. lattice position attention 和 Masked segment prediction

self attention 为什么有根号2分之1

整体架构

Lattice-BERT 论文阅读Motivation 创新点

Lattice Position Attention 

所有层共享

Lattice-BERT 论文阅读Motivation 创新点
Lattice-BERT 论文阅读Motivation 创新点

绝对位置

Lattice-BERT 论文阅读Motivation 创新点

第i个位置和第j个位置的相对distance [−128, 128]

Lattice-BERT 论文阅读Motivation 创新点

r表示第i和第j的位置关系 常数

Lattice-BERT 论文阅读Motivation 创新点

attension score捕捉了不同方面的lattice graph信息

预训练任务:Masked Segment Prediction

加入了lattice 结构,一个字可能出现在多个地方,不能直接随机mask。

只mask某个字,模型可能通过别的词获取信息,而不是通过上下文获取信息。

segment:子图中的字不被包含在别的子图中。一个segment一起mask。

sentence order prediction 任务

实验

CLUE

Lattice 构造

开放域高频词102K,Aho-Corasick automaton工具

不在词典中的英文词和数字保持字符序列,在词典中的,仍用lattice

预训练细节

base 12层 hidden768 head 12

lite 6层 hidden 512 head 8

为了避免词表过大,用了albert的降维

参数100M

batch 8K、100K steps

语料:Chinese Wiki,知乎、网页新闻; 18.3G

Lattice-BERT 论文阅读Motivation 创新点

BERT-Our 是用相同的数据、结构、超参、WWM,用字作为输入。

  • 比单粒度的性能好,切比多粒度的AMBERT好。说明能更好的利用多粒度的信息
  • 在lite size下,与BERT-Our的区别更大,且与base size的性能接近。多粒度信息使得不需要特别深的模型也能效果可比。

消融实验

Lattice-BERT 论文阅读Motivation 创新点

Rel表示相对距离b、Dis表示位置关系r

没有绝对位置的消融实验?

How LBERT Improves Fine-grained PLMs?

TNEWS 数据集中,相较于长于平均长度的文本,在更短的文本上,LBERT的表现更好。

CSL任务上,能获取词不同方面的信息。

NER任务上,能更好的解决嵌套结构。

Lattice-BERT 论文阅读Motivation 创新点

在不同任务上,attention score的分布不同,能根据任务的不同,自动的利用不同方面、粒度的信息。

继续阅读