ELMo - Deep contextualized word representationsDeep contextualized word representations (ELMo)elmo语言模型Reference

2023-08-04 15:40:40

Deep contextualized word representations (ELMo)

最近NLP突飞猛进，现有ELMo，后有BERT。

glove以及word2vec的word embedding在nlp任务中都取得了最好的效果, 现在几乎没有一个NLP的任务中不加word embedding.

常用的获取embedding方法都是通过训练language model, 将language model中预测的hidden state做为word的表示, 给定N个tokens的序列

(t1,t2,...,tn)(t1,t2,...,tn)

, 前向language model就是通过前k-1个输入序列

(t1,t2,...,tk)(t1,t2,...,tk)

的hidden表示, 预测第k个位置的token, 反向的language model就是给定后面的序列, 预测之前的, 然后将language model的第k个位置的hidden输出做为word embedding。

之前的做法的缺点是对于每一个单词都有唯一的一个embedding表示, 而对于多义词显然这种做法不符合直觉, 而单词的意思又和上下文相关, ELMo的做法是我们只预训练language model, 而word embedding是通过输入的句子实时输出的, 这样单词的意思就是上下文相关的了, 这样就很大程度上缓解了歧义的发生。且ELMo输出多个层的embedding表示, 试验中已经发现每层LM输出的信息对于不同的任务效果不同, 因此对每个token用不同层的embedding表示会提升效果。

elmo语言模型

ELMo - Deep contextualized word representationsDeep contextualized word representations (ELMo)elmo语言模型Reference

目标：

正向：对于序列，通过前n-1个token，预测第n个token。

p ( t 1 , t 2 , … , t N ) = ∏ k = 1 N p ( t k ∣ t 1 , t 2 , … , t k − 1 ) p\left(t_{1}, t_{2}, \ldots, t_{N}\right)=\prod_{k=1}^{N} p\left(t_{k} | t_{1}, t_{2}, \ldots, t_{k-1}\right) p(t1,t2,…,tN)=k=1∏Np(tk∣t1,t2,…,tk−1)
反向：通过当前词语后的[n+1, n + 2，…, seq_len]位置的token，预测第n个token。

p ( t 1 , t 2 , … , t N ) = ∏ k = 1 N p ( t k ∣ t k + 1 , t k + 2 , … , t N ) p\left(t_{1}, t_{2}, \ldots, t_{N}\right)=\prod_{k=1}^{N} p\left(t_{k} | t_{k+1}, t_{k+2}, \ldots, t_{N}\right) p(t1,t2,…,tN)=k=1∏Np(tk∣tk+1,tk+2,…,tN)

使用的网络是Bi_LSTM，正向LSTM任务为正向目标，反向为反向目标，通过在语料上训练出模型，用于下游的任务。

fine-tuning

对于一个L层的elmo，共有2L+1个向量，对于下游网络使用，是直接用最上层的输出？还是将所有向量concat呢？

文中方法：提出基于任务的权重矩阵，通过目标任务来训练权重：

E L M o k task = E ( R k ; Θ task ) = γ task ⁡ ∑ j = 0 L s j task ⁡ h k , j L M \mathrm{ELMo}_{k}^{\text {task}}=E\left(R_{k} ; \Theta^{\text {task}}\right)= \gamma^{\operatorname{task}} \sum_{j=0}^{L} s_{j}^{\operatorname{task}} \mathbf{h}_{k, j}^{L M} ELMoktask=E(Rk;Θtask)=γtaskj=0∑Lsjtaskhk,jLM

模型下载：https://allennlp.org/elmo

Reference

论文：https://arxiv.org/abs/1802.05365
应用：https://arxiv.org/abs/1806.06259
github开源代码（TensorFlow）：https://github.com/allenai/bilm-tf
GitHub（PyTorch）：https://github.com/allenai/allennlp

ELMo - Deep contextualized word representationsDeep contextualized word representations (ELMo)elmo语言模型Reference

Deep contextualized word representations (ELMo)

elmo语言模型

fine-tuning

Reference

继续阅读

seq2seq模型 + Attention机制

elasticlunr.js 最新版本v0.6.7发布啦应用示例为什么你需要elasticlunr.js?

RNN/LSTM学习资料总结

使用中文维基百科进行GloVe实验

从词向量衡量标准到全局向量的词嵌入模型GloVe再到一词多义的解决方式衡量标准Evaluation引子全局向量的词嵌入应用对一词多义的思考Reference

NLP︱高级词向量表达（一）——GloVe（理论、相关测评结果、R&python实现、相关应用）一、理论简述二、测评三、Glove实现&R&python四、相关应用

GloVe与word2vec的区别，及GloVe的缺陷

更别致的词向量模型(一)：simpler glove

NLP【03】白话glove原理一、前言二、Glove基本思想

Glove公式推导

glove_python安装（避免编译错误）

python 分析qq聊天记录

[一起学BERT]（一）：BERT模型的原理基础Self-Attention机制理论Multi-head Self-Attention注意力机制位置编码Transformer理论BERT理论

ELMO BERT GPT

BERT、Elmo、GPT一、发展历史二、bert三、ERNIE四、GPT—transformer的decoder

人工智能如何有效地运用于自然语言处理