Motivation
對于中文預訓練模型,字級别的資訊不夠,比如“老闆”不是指“老”“闆”,需要有詞級别的補充。是以,利用word-lattice結構整合詞級别資訊。
Lattice-BERT 論文閱讀Motivation 創新點 創新點

1. lattice-bert
2. lattice position attention 和 Masked segment prediction
self attention 為什麼有根号2分之1
整體架構
Lattice Position Attention
所有層共享
絕對位置
第i個位置和第j個位置的相對distance [−128, 128]
r表示第i和第j的位置關系 常數
attension score捕捉了不同方面的lattice graph資訊
預訓練任務:Masked Segment Prediction
加入了lattice 結構,一個字可能出現在多個地方,不能直接随機mask。
隻mask某個字,模型可能通過别的詞擷取資訊,而不是通過上下文擷取資訊。
segment:子圖中的字不被包含在别的子圖中。一個segment一起mask。
sentence order prediction 任務
實驗
CLUE
Lattice 構造
開放域高頻詞102K,Aho-Corasick automaton工具
不在詞典中的英文詞和數字保持字元序列,在詞典中的,仍用lattice
預訓練細節
base 12層 hidden768 head 12
lite 6層 hidden 512 head 8
為了避免詞表過大,用了albert的降維
參數100M
batch 8K、100K steps
語料:Chinese Wiki,知乎、網頁新聞; 18.3G
BERT-Our 是用相同的資料、結構、超參、WWM,用字作為輸入。
- 比單粒度的性能好,切比多粒度的AMBERT好。說明能更好的利用多粒度的資訊
- 在lite size下,與BERT-Our的差別更大,且與base size的性能接近。多粒度資訊使得不需要特别深的模型也能效果可比。
消融實驗
Rel表示相對距離b、Dis表示位置關系r
沒有絕對位置的消融實驗?
How LBERT Improves Fine-grained PLMs?
TNEWS 資料集中,相較于長于平均長度的文本,在更短的文本上,LBERT的表現更好。
CSL任務上,能擷取詞不同方面的資訊。
NER任務上,能更好的解決嵌套結構。
在不同任務上,attention score的分布不同,能根據任務的不同,自動的利用不同方面、粒度的資訊。