Transformer-XL: Attentive Language ModelsBeyond a Fixed-Length Context
- 基本信息
- 研究目的
- 相关工作
- 方法
- 实验
- 结论
- Notes
基本信息
Authors:Zihang Dai, Zhilin Yang, Yiming Yang, Jaime Carbonell, Quoc V. Le, Ruslan Salakhutdinov
Year:2019
From:n/a
研究目的
提出一个Transformer-XL模型,可以建模长距离依赖,解决句子分割的时候不考虑句子上下文(自然边界)的问题
相关工作
- 语言建模的提升方向
- 第一种是设计新结构来建模来更好地encode the context
- 第二种是提升归一化和优化算法
- 第三种是加速softmax的计算
- 第四种是enriching the outputdistribution family
- 为了在语言建模中capture long-range context
- context representations are manually defined
- rely ondocument-level topics learned from data
- 改变LSTM
- 更好的初始化
- additional loss signal
- ugmented memory structure
- modify the internal architecture of RNNs to ease the optimization
方法
- Segment-Level Recurrence with StateReuse
《Transformer-XL: Attentive Language ModelsBeyond a Fixed-Length Context》论文阅读笔记基本信息研究目的相关工作方法实验结论Notes 这个方法会cache一系列的隐层状态h,这一系列的大小是预设的M。论文中的实验部分M等于segment length。《Transformer-XL: Attentive Language ModelsBeyond a Fixed-Length Context》论文阅读笔记基本信息研究目的相关工作方法实验结论Notes -
Relative Positional Encodings
R ∈ R L m a x × d R\in \mathbb{R}^{L_{max} \times d} R∈RLmax×d,这就是相对位置编码的矩阵, R i R_i Ri表示相对距离为i
《Transformer-XL: Attentive Language ModelsBeyond a Fixed-Length Context》论文阅读笔记基本信息研究目的相关工作方法实验结论Notes 以前没有information to distinguish the positional difference x r , j x_{r,j} xr,j和 x r + 1 , j x_{r+1,j} xr+1,j
对于绝对位置编码有三处改变
《Transformer-XL: Attentive Language ModelsBeyond a Fixed-Length Context》论文阅读笔记基本信息研究目的相关工作方法实验结论Notes 《Transformer-XL: Attentive Language ModelsBeyond a Fixed-Length Context》论文阅读笔记基本信息研究目的相关工作方法实验结论Notes
- R i − j R_{i - j} Ri−j
- u和v是两个可训练的变量
- 把 W k W_k Wk拆分成 W k , E 基 于 内 容 的 k e y W_{k,E}基于内容的key Wk,E基于内容的key和 W k , R W_{k,R} Wk,R基于位置的key
综合公式
实验
语言建模
消融实验
结论
- 提出了一个Transformer-XL,把循环的机制引入Transformer中,更全面地利用上下文信息,同时大大地加快了推断的速度
Notes
n/a