天天看點

Lattice-BERT 論文閱讀Motivation 創新點

Motivation

對于中文預訓練模型,字級别的資訊不夠,比如“老闆”不是指“老”“闆”,需要有詞級别的補充。是以,利用word-lattice結構整合詞級别資訊。

Lattice-BERT 論文閱讀Motivation 創新點
 創新點

1. lattice-bert

2. lattice position attention 和 Masked segment prediction

self attention 為什麼有根号2分之1

整體架構

Lattice-BERT 論文閱讀Motivation 創新點

Lattice Position Attention 

所有層共享

Lattice-BERT 論文閱讀Motivation 創新點
Lattice-BERT 論文閱讀Motivation 創新點

絕對位置

Lattice-BERT 論文閱讀Motivation 創新點

第i個位置和第j個位置的相對distance [−128, 128]

Lattice-BERT 論文閱讀Motivation 創新點

r表示第i和第j的位置關系 常數

Lattice-BERT 論文閱讀Motivation 創新點

attension score捕捉了不同方面的lattice graph資訊

預訓練任務:Masked Segment Prediction

加入了lattice 結構,一個字可能出現在多個地方,不能直接随機mask。

隻mask某個字,模型可能通過别的詞擷取資訊,而不是通過上下文擷取資訊。

segment:子圖中的字不被包含在别的子圖中。一個segment一起mask。

sentence order prediction 任務

實驗

CLUE

Lattice 構造

開放域高頻詞102K,Aho-Corasick automaton工具

不在詞典中的英文詞和數字保持字元序列,在詞典中的,仍用lattice

預訓練細節

base 12層 hidden768 head 12

lite 6層 hidden 512 head 8

為了避免詞表過大,用了albert的降維

參數100M

batch 8K、100K steps

語料:Chinese Wiki,知乎、網頁新聞; 18.3G

Lattice-BERT 論文閱讀Motivation 創新點

BERT-Our 是用相同的資料、結構、超參、WWM,用字作為輸入。

  • 比單粒度的性能好,切比多粒度的AMBERT好。說明能更好的利用多粒度的資訊
  • 在lite size下,與BERT-Our的差別更大,且與base size的性能接近。多粒度資訊使得不需要特别深的模型也能效果可比。

消融實驗

Lattice-BERT 論文閱讀Motivation 創新點

Rel表示相對距離b、Dis表示位置關系r

沒有絕對位置的消融實驗?

How LBERT Improves Fine-grained PLMs?

TNEWS 資料集中,相較于長于平均長度的文本,在更短的文本上,LBERT的表現更好。

CSL任務上,能擷取詞不同方面的資訊。

NER任務上,能更好的解決嵌套結構。

Lattice-BERT 論文閱讀Motivation 創新點

在不同任務上,attention score的分布不同,能根據任務的不同,自動的利用不同方面、粒度的資訊。

繼續閱讀