天天看點

第2章 GPT-3簡介

GPT-3依舊延續自己的單向語言模型訓練方式,隻不過這次把模型尺寸增大到了1750億,并且使用45TB資料進行訓練。同時,GPT-3主要聚焦于更通用的NLP模型,GPT-3模型在一系列基準測試和特定領域的自然語言處理任務(從語言翻譯到生成新聞)中達到最新的SOTA結果。對于所有任務,GPT-3沒有進行任何微調,僅通過文本與模型進行互動。與GPT-2相比,GPT-3的圖像生成功能更成熟,不需經過微調,就可以在不完整的圖像樣本基礎上補全完整的圖像。GPT-3意味着從一代到三代的跨越實作了兩個轉向:

1.從語言到圖像的轉向;

2.使用更少的領域資料、甚至不經過微調步驟去解決問題。

2.1 預訓練模型一般流程

一般預訓練模型(如ELMo、BERT等)的流程如圖1-23所示,其中微調是一個重要環節。

第2章 GPT-3簡介

圖1-23 預訓練模型的一般流程

2.2 GPT-3 與BERT的差別

一般預訓練模型中微調是一個重要環節,但GPT-3卻無需微調,GPT-3與一般預訓練模型(這裡以BERT為例)還有很多不同之處,具體可參考圖1-24。

第2章 GPT-3簡介

圖1-24 GPT-3 與BERT的差別

2.3 GPT-3與傳統微調的差別

對下遊任務的設定大緻有以下四類:

1.Fine-Tunning(FT):

FT利用成千上萬的下遊任務标注資料來更新預訓練模型中的權重以獲得強大的性能。但是,該方法不僅導緻每個新的下遊任務都需要大量的标注語料,還導緻模型在樣本外預測的能力很弱。雖然GPT-3從理論上支援FT,但沒有采用這種方法。

2.Few-Shot(FS)

模型在推理階段可以得到少量的下遊任務示例作為限制條件,但是不允許更新預訓練模型中的權重。

3.One-Shot(1S)

模型在推理階段僅得到1個下遊任務示例。

4.Zero-Shot(0S)

模型在推理階段僅得到一段以自然語言描述的下遊任務說明。GPT-3與傳統預訓練模型對下遊任務的處理方法的差別,可參考圖1-25。

第2章 GPT-3簡介

圖1-25 傳統微調與GPT-3采用的三種設定方法比較

2.4 GPT-3 示例

圖1-26 為使用GPT-3 進行文本糾錯的執行個體,從糾錯結果來看,效果還是令人驚奇。

第2章 GPT-3簡介

圖1-26 GPT-3 進行文本糾錯的執行個體

繼續閱讀