Lattice-BERT 論文閱讀Motivation 創新點

2023-08-02 22:35:54

Motivation

對于中文預訓練模型，字級别的資訊不夠，比如“老闆”不是指“老”“闆”，需要有詞級别的補充。是以，利用word-lattice結構整合詞級别資訊。

Lattice-BERT 論文閱讀Motivation 創新點
創新點

1. lattice-bert

2. lattice position attention 和 Masked segment prediction

self attention 為什麼有根号2分之1

整體架構

Lattice-BERT 論文閱讀Motivation 創新點

Lattice Position Attention

所有層共享

Lattice-BERT 論文閱讀Motivation 創新點

絕對位置

Lattice-BERT 論文閱讀Motivation 創新點

第i個位置和第j個位置的相對distance [−128, 128]

Lattice-BERT 論文閱讀Motivation 創新點

r表示第i和第j的位置關系常數

Lattice-BERT 論文閱讀Motivation 創新點

attension score捕捉了不同方面的lattice graph資訊

預訓練任務：Masked Segment Prediction

加入了lattice 結構，一個字可能出現在多個地方，不能直接随機mask。

隻mask某個字，模型可能通過别的詞擷取資訊，而不是通過上下文擷取資訊。

segment：子圖中的字不被包含在别的子圖中。一個segment一起mask。

sentence order prediction 任務

實驗

CLUE

Lattice 構造

開放域高頻詞102K，Aho-Corasick automaton工具

不在詞典中的英文詞和數字保持字元序列，在詞典中的，仍用lattice

預訓練細節

base 12層 hidden768 head 12

lite 6層 hidden 512 head 8

為了避免詞表過大，用了albert的降維

參數100M

batch 8K、100K steps

語料：Chinese Wiki，知乎、網頁新聞； 18.3G

Lattice-BERT 論文閱讀Motivation 創新點

BERT-Our 是用相同的資料、結構、超參、WWM，用字作為輸入。

比單粒度的性能好，切比多粒度的AMBERT好。說明能更好的利用多粒度的資訊
在lite size下，與BERT-Our的差別更大，且與base size的性能接近。多粒度資訊使得不需要特别深的模型也能效果可比。

消融實驗

Lattice-BERT 論文閱讀Motivation 創新點

Rel表示相對距離b、Dis表示位置關系r

沒有絕對位置的消融實驗？

How LBERT Improves Fine-grained PLMs?

TNEWS 資料集中，相較于長于平均長度的文本，在更短的文本上，LBERT的表現更好。

CSL任務上，能擷取詞不同方面的資訊。

NER任務上，能更好的解決嵌套結構。

Lattice-BERT 論文閱讀Motivation 創新點

在不同任務上，attention score的分布不同，能根據任務的不同，自動的利用不同方面、粒度的資訊。

Lattice-BERT 論文閱讀Motivation 創新點

Motivation

Lattice-BERT 論文閱讀Motivation 創新點
創新點

Lattice Position Attention

預訓練任務：Masked Segment Prediction

實驗

Lattice 構造

預訓練細節

消融實驗

How LBERT Improves Fine-grained PLMs?

繼續閱讀

論文閱讀——Parallel Multi-Resolution Fusion Network for Image Inpainting網絡結構損失函數

聯考志願填報：人工智能專業怎麼樣？人工智能行業發展前景如何？

【Python學習筆記】- Day6

Windows版本的Google word2vec和Stanford GloVe工具

seq2sqe與attenton實作聊天機器人

奮戰聊天機器人（四）自然語言進行中的文本分類nltk中的貝葉斯分類器

從詞向量衡量标準到全局向量的詞嵌入模型GloVe再到一詞多義的解決方式衡量标準Evaluation引子全局向量的詞嵌入應用對一詞多義的思考Reference

GloVe與word2vec的差別，及GloVe的缺陷

統計學習大作業-BERT模型1 文本處理-BERT模型2 參考資料：

Glove公式推導

anaconda中科大鏡像

《論文閱讀》SAPBERT: Speaker-Aware Pretrained BERT for Emotion Recognition in Conversation

NLP從入門到放棄_IBM Model1IBM Model1

目标檢測系相關論文閱讀基礎網絡檢測算法架構優化方向

論文閱讀筆記（三）：Research on Network Attack Effect Evaluation Based on Confrontational Perspective一. 論文簡介二. 創新點和貢獻：三. 相關領域的概述(related work)四. 作者的方案五. 主要的資訊流（approach）六. 總結

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

Lattice-BERT 論文閱讀Motivation 創新點

Motivation

Lattice-BERT 論文閱讀Motivation 創新點 創新點

Lattice Position Attention

預訓練任務：Masked Segment Prediction

實驗

Lattice 構造

預訓練細節

消融實驗

How LBERT Improves Fine-grained PLMs?

繼續閱讀

Lattice-BERT 論文閱讀Motivation 創新點
創新點