天天看點

NLP新paper每日分享DAY20|中文預訓練模型研究進展2022年計算機科學(《計算領域高品質科技期刊分級目錄》T2

作者:雨岸芷汀蘭

NLP新paper每日分享 DAY 20 | 中文預訓練模型研究進展

2022年計算機科學(《計算領域高品質科技期刊分級目錄》T2)論文《中文預訓練模型研究進展》(p2),作者來自新财。

本文算是個比較正常的中文預訓練模型綜述論文,其實寫得很一般。但是可供參考。

介紹了自word2vec以來預訓練模型的優秀傳統,中文NLP任務相比英文NLP任務的獨特之處,最新的預訓練模型改進方向,尤其是中文預訓練的發展。

典型中文預訓練模型發展史 (p3)

1. 預訓練模型的方法改進

1. 掩碼方式

1. 全詞掩碼WWM(谷歌)

2. 實體、短語(百度ERNIE)

3. N-gram掩碼

4. 動态掩碼(RoBERTa)

5. 基于語言知識的掩碼(二郎神)

6. (後面幾個光看綜述沒看懂)

2. 位置編碼

1. 絕對位置編碼APE

2. 參數式相對位置編碼RPE

3. LN層的位置 (p4)

1. Post-LN

2. Pre-LN(可去除warm-up學習率階段)

3. Sandwich-LN

4. MoE層 (p5):該元件通過在網絡中引入多個專家來減少需要激活的神經元數量,以此提升模型的計算效率

5. 多粒度訓練:指的是不同分詞粒度

2. 外部資訊

1. 命名實體(百度ERNIE)

2. 知識圖譜(百度ERNIE3.0,鵬城-百度文心,神舟)

3. 語言學知識(Chinese BERT (p6),孟子)

1. 特定知識

3. 多模态

4. 高效計算

5. 特定領域

6. 英文預訓練模型在中文語料庫上訓練且開源的中文版本

預訓練相關資料彙總 (p7)

測評基準的任務彙總 (p8-9)

MUGE的3個多模态任務 (p10)

中文讀起來真是巴适得闆,比英文論文讀起來快多了。

我已經整理好了本期論文PDF版,感興趣的話dddd!

NLP新paper每日分享DAY20|中文預訓練模型研究進展2022年計算機科學(《計算領域高品質科技期刊分級目錄》T2
NLP新paper每日分享DAY20|中文預訓練模型研究進展2022年計算機科學(《計算領域高品質科技期刊分級目錄》T2
NLP新paper每日分享DAY20|中文預訓練模型研究進展2022年計算機科學(《計算領域高品質科技期刊分級目錄》T2
NLP新paper每日分享DAY20|中文預訓練模型研究進展2022年計算機科學(《計算領域高品質科技期刊分級目錄》T2
NLP新paper每日分享DAY20|中文預訓練模型研究進展2022年計算機科學(《計算領域高品質科技期刊分級目錄》T2
NLP新paper每日分享DAY20|中文預訓練模型研究進展2022年計算機科學(《計算領域高品質科技期刊分級目錄》T2
NLP新paper每日分享DAY20|中文預訓練模型研究進展2022年計算機科學(《計算領域高品質科技期刊分級目錄》T2
NLP新paper每日分享DAY20|中文預訓練模型研究進展2022年計算機科學(《計算領域高品質科技期刊分級目錄》T2
NLP新paper每日分享DAY20|中文預訓練模型研究進展2022年計算機科學(《計算領域高品質科技期刊分級目錄》T2
NLP新paper每日分享DAY20|中文預訓練模型研究進展2022年計算機科學(《計算領域高品質科技期刊分級目錄》T2
NLP新paper每日分享DAY20|中文預訓練模型研究進展2022年計算機科學(《計算領域高品質科技期刊分級目錄》T2

繼續閱讀