Lattice-BERT 论文阅读Motivation 创新点

2023-08-02 22:35:54

Motivation

对于中文预训练模型，字级别的信息不够，比如“老板”不是指“老”“板”，需要有词级别的补充。因此，利用word-lattice结构整合词级别信息。

Lattice-BERT 论文阅读Motivation 创新点
创新点

1. lattice-bert

2. lattice position attention 和 Masked segment prediction

self attention 为什么有根号2分之1

整体架构

Lattice-BERT 论文阅读Motivation 创新点

Lattice Position Attention

所有层共享

Lattice-BERT 论文阅读Motivation 创新点

绝对位置

Lattice-BERT 论文阅读Motivation 创新点

第i个位置和第j个位置的相对distance [−128, 128]

Lattice-BERT 论文阅读Motivation 创新点

r表示第i和第j的位置关系常数

Lattice-BERT 论文阅读Motivation 创新点

attension score捕捉了不同方面的lattice graph信息

预训练任务：Masked Segment Prediction

加入了lattice 结构，一个字可能出现在多个地方，不能直接随机mask。

只mask某个字，模型可能通过别的词获取信息，而不是通过上下文获取信息。

segment：子图中的字不被包含在别的子图中。一个segment一起mask。

sentence order prediction 任务

实验

CLUE

Lattice 构造

开放域高频词102K，Aho-Corasick automaton工具

不在词典中的英文词和数字保持字符序列，在词典中的，仍用lattice

预训练细节

base 12层 hidden768 head 12

lite 6层 hidden 512 head 8

为了避免词表过大，用了albert的降维

参数100M

batch 8K、100K steps

语料：Chinese Wiki，知乎、网页新闻； 18.3G

Lattice-BERT 论文阅读Motivation 创新点

BERT-Our 是用相同的数据、结构、超参、WWM，用字作为输入。

比单粒度的性能好，切比多粒度的AMBERT好。说明能更好的利用多粒度的信息
在lite size下，与BERT-Our的区别更大，且与base size的性能接近。多粒度信息使得不需要特别深的模型也能效果可比。

消融实验

Lattice-BERT 论文阅读Motivation 创新点

Rel表示相对距离b、Dis表示位置关系r

没有绝对位置的消融实验？

How LBERT Improves Fine-grained PLMs?

TNEWS 数据集中，相较于长于平均长度的文本，在更短的文本上，LBERT的表现更好。

CSL任务上，能获取词不同方面的信息。

NER任务上，能更好的解决嵌套结构。

Lattice-BERT 论文阅读Motivation 创新点

在不同任务上，attention score的分布不同，能根据任务的不同，自动的利用不同方面、粒度的信息。

Lattice-BERT 论文阅读Motivation 创新点

Motivation

Lattice-BERT 论文阅读Motivation 创新点
创新点

Lattice Position Attention

预训练任务：Masked Segment Prediction

实验

Lattice 构造

预训练细节

消融实验

How LBERT Improves Fine-grained PLMs?

继续阅读

论文阅读——Parallel Multi-Resolution Fusion Network for Image Inpainting网络结构损失函数

高考志愿填报：人工智能专业怎么样？人工智能行业发展前景如何？

【Python学习笔记】- Day6

Windows版本的Google word2vec和Stanford GloVe工具

seq2sqe与attenton实现聊天机器人

奋战聊天机器人（四）自然语言处理中的文本分类nltk中的贝叶斯分类器

从词向量衡量标准到全局向量的词嵌入模型GloVe再到一词多义的解决方式衡量标准Evaluation引子全局向量的词嵌入应用对一词多义的思考Reference

GloVe与word2vec的区别，及GloVe的缺陷

统计学习大作业-BERT模型1 文本处理-BERT模型2 参考资料：

Glove公式推导

anaconda中科大镜像

《论文阅读》SAPBERT: Speaker-Aware Pretrained BERT for Emotion Recognition in Conversation

NLP从入门到放弃_IBM Model1IBM Model1

目标检测系相关论文阅读基础网络检测算法框架优化方向

论文阅读笔记（三）：Research on Network Attack Effect Evaluation Based on Confrontational Perspective一. 论文简介二. 创新点和贡献：三. 相关领域的概述(related work)四. 作者的方案五. 主要的信息流（approach）六. 总结

解码器用于语义分割：数据依赖的解码可以实现灵活的特征聚合

Lattice-BERT 论文阅读Motivation 创新点

Motivation

Lattice-BERT 论文阅读Motivation 创新点 创新点

Lattice Position Attention

预训练任务：Masked Segment Prediction

实验

Lattice 构造

预训练细节

消融实验

How LBERT Improves Fine-grained PLMs?

继续阅读

Lattice-BERT 论文阅读Motivation 创新点
创新点