天天看點

使用MindStudio進行xlnet模型訓練

詳情請點選:使用MindStudio進行xlnet模型訓練 - 知乎

BERT 本身很有效,但它本身也存在一些問題,比如不能用于生成、以及訓練資料和測試資料的不一緻(Discrepancy)。在本文中,我們重點介紹比 BERT 更強大的預訓練模型

-XLNet,它為了達到真正的雙向學習,采用了 Permutation 語言模型、以及使用了雙流自注意力機制,并結合了 Transformer-XL 的相對位置編碼。

作者發現,隻要在 AR 中再加入一個步驟,就能夠完美地将 AR 與 AE 的優點統一起來, 那就是提出 Permutation Language Model(PLM)。具體實作方式是,通過随機取一句話的一種排列,然後将末尾一定量的詞給“遮掩”(和 BERT 裡的直接替換 “[MASK]” 有些不同)掉,最後用 AR 的方式來按照這種排列依次預測被“遮掩”掉的詞。我們可以發現通過随機取排列(Permutation)中的一種,就能非常巧妙地通過 AR 的單向方式來習得雙向資訊了。

論文中 Permutation 具體的實作方式是通過直接對 Transformer 的 Attention Mask 進行操作。比如說序号依次為 1234 的句子,先随機取一種排列 3241。于是根據這個排列我們就做出類似上圖的 Attention Mask。先看第 1 行,因為在新的排列方式中 1 在最後一個,根據從左到右 AR 方式,1 就能看到 234 全部,于是第一行的 234 位置是紅色的(沒有遮蓋掉,會用到),以此類推。第 2 行,因為 2 在新排列是第二個,隻能看到 3,于是 3

位置是紅色。第 3 行,因為 3 在第一個,看不到其他位置,是以全部遮蓋掉...

繼續閱讀