大多數現代的NLP系統都遵循一種非常标準的方法來訓練各種用例的新模型，即先訓練後微調。在這裡，預處理訓練的目标是利用大量未标記的文本，在對各種特定的自然語言處理任務(如機器翻譯、文本摘要等)進行微調之前，建立一個通用的語言了解模型。

了解NLP中的屏蔽語言模型(MLM)和因果語言模型(CLM)大多數現代的NLP系統都遵循一種非常标準的方法來訓練各種用例的新模型，即先訓練後微調。在這裡，預處理訓練的目标是利用大量未标記的文本，在對各種特定的自然語言處理任務(如機器翻譯、文本摘要等)進行微調之前，建立一個通用的語言了解模型。

在本文章中，我們将讨論兩種流行的訓練前方案，即掩蔽語言模組化(MLM)和因果語言模組化(CLM)。

屏蔽語言模型解釋

在屏蔽語言模組化中，我們通常屏蔽給定句子中特定百分比的單詞，模型期望基于該句子中的其他單詞預測這些被屏蔽的單詞。這樣的訓練方案使這個模型在本質上是雙向的，因為掩蔽詞的表示是根據出現的詞來學習的，不管是左還是右。你也可以把它想象成一個填空式的問題陳述。

下面的圖顯示了更詳細的視圖與損失計算步驟-

在這裡，被屏蔽詞的表示可以像BERT和其他變體一樣是基于注意力的，或者你也可以不這樣設計它。基于α(注意權重)的分布可以權衡其他的表示輸入的單詞學習表示被遮蔽的詞,例如-α= 1将給予同等重視,周圍的單詞(也就是說,每個詞将遮蔽平等的貢獻表示)。

因果語言模型解釋

因果語言模型，這裡的思想是預測一個給定句子中的蒙面标記，但與MLM不同，這個模型被隻考慮發生在它左邊的單詞來做同樣的事情(理想情況下，這個可以是左的或者右的，想法是使它是單向的)。這樣的訓練方案使得這種模式在本質上是單向的

正如您在下面的圖中可以看到的，該模型預計将根據出現在其左側的單詞預測句子中出現的掩碼标記。基于模型對實際标簽的預測，計算交叉熵損失并反向傳播來訓練模型參數。

下面的圖顯示了更詳細的視圖與損失計算步驟-

在這裡，屏蔽詞的表示可以是基于注意力的，就像GPT和變體一樣，或者你也可以不這樣設計它，就像我們在LSTM裡使用它一樣。基于α的分布(見圖)你可以權衡其他的表示輸入的單詞學習表示被遮蔽的詞,例如-α= 1将給予同等重視,周圍的單詞(也就是說,每個詞将平等貢獻了遮蔽表示)。

這些系統也被稱為解碼器模型，因為在典型的編碼器-解碼器架構中，如機器翻譯、文本摘要等，解碼器(文本生成器)的工作原理類似。

何時使用？

當目标是學習輸入文檔的良好表示時，MLM 損失是首選，而當我們希望學習生成流暢文本的系統時，CLM 是首選。此外，從直覺上看，這是有道理的，因為在為每個單詞學習良好的輸入表示時，您想知道它出現的單詞是左還是右，而當您想學習生成文本的系統時，您隻能看到什麼到目前為止看到了什麼，您已經生成了所有内容（就像人類的寫作方式一樣）。是以，制作一個在生成文本的同時也可以窺視另一側的系統可能會引入限制模型創造力的偏差。

盡管在訓練具有編碼器和解碼器的整個架構時，您經常會發現 MLM 和 CLM 損失。兩者都有其優點和局限性，一種稱為 XLNet 的新模型使用置換技術來利用兩全其美（MLM 和 CLM）。

作者：Prakhar Mishra

原文位址：https://towardsdatascience.com/understanding-masked-language-models-mlm-and-causal-language-models-clm-in-nlp-194c15f56a5