天天看點

谷歌釋出 AI 語言模型 ELECTRA,将作為 TensorFlow 上的開源模型

在最近的一項研究中,Google 的研究人員提出了“有效學習一種對令牌替換進行準确分類的編碼器”(ELECTRA),這是一種 AI 語言訓練技術,在具有相同數量的計算資源的情況下,其性能優于現有方法。在釋出數月後的這一周,合著者釋出了 TensorFlow 的代碼庫(和預訓練的模型),為強大的模型奠定了基礎,這些模型能夠以最新的準确性執行語言任務。這些模型可能有一天會進入客戶服務聊天機器人,或者可能被合并到為執行團隊總結報告的工具中。

預訓練方法通常分為兩類:語言模型(例如OpenAI的GPT),該模型從左到右處理輸入文本并根據給定的上下文預測下一個單詞;以及屏蔽語言模型(例如Google的BERT和ALBERT以及Facebook的語言模型)RoBERTa),它可以預測輸入中被掩蓋的少量單詞的身份。屏蔽語言模型的優勢在于,它們可以“看到”要預測的令牌(即單詞)左右兩側的文本,但是它們的預測僅限于輸入令牌的一小部分,進而減少了學習量從每個句子。

ELECTRA的秘密秘訣是一項稱為替換令牌檢測的預訓練任務,它可以在從所有輸入位置學習的同時訓練雙向模型(就像被屏蔽的語言模型一樣),就像語言模型一樣。該區分模型的任務是區分“真實”和“僞造”輸入資料。ELECTRA通過用不正确的僞造品(但有些合理的僞造品)替換某些令牌來“破壞”輸入,然後,它要求模型确定哪些令牌已被替換或保持不變。

谷歌釋出 AI 語言模型 ELECTRA,将作為 TensorFlow 上的開源模型

替換令牌來自另一個稱為生成器的AI模型。生成器可以是在令牌上産生輸出分布的任何模型,但是Google研究人員使用了與鑒别器一起訓練的小型屏蔽語言模型。生成器和鑒别器共享相同的輸入詞嵌入。在預訓練階段之後,将生成器放下,并在各種下遊任務上微調鑒别器(ELECTRA模型)。

該團隊報告說,在實驗中,ELECTRA比以前的方法“有了實質性的改進”,使用不到25%的計算量,其性能與RoBERTa和XLNet相當。在4天的時間裡,在單個圖形卡(計算的1/30)上訓練了一個小的ELECTRA模型之後,研究人員設法超越了GPT。借助使用大量計算進行訓練的大型ELECTRA模型,他們在SQuAD 2.0問答資料集和GLUE語言了解任務排行榜上獲得了最先進的性能。(ELECTRA在GLUE上沒有擊敗Google自己的T5-11b,但研究表明它的大小是其的1/30,并使用10%的計算進行訓練。)

谷歌釋出 AI 語言模型 ELECTRA,将作為 TensorFlow 上的開源模型

當使用少于1/4的計算量時,ELECTRA可以在GLUE自然語言了解基準上與RoBERTa和XLNet的性能相比對,并在SQuAD問答基準上達到最新的結果。ELECTRA的出色效率意味着即使在小規模的情況下也能很好地運作-可以在幾天内在單個GPU上進行訓練,其準确性要高于GPT(該模型使用30倍以上的計算能力)。ELECTRA已在TensorFlow之上作為開源模型釋出,其中包括許多現成的預訓練語言表示模型。

學生研究員Kevin Clark和Google Brain進階研究科學家Thang Luong在部落格中寫道:“ ELECTRA隻需很少的示例就可以達到相同的性能,因為它每個示例都收到模式訓練信号。” “與此同時,RTD帶來了功能強大的表示學習,因為模型必須學習資料分布的準确表示才能解決任務。”

繼續閱讀