第2章 GPT-3簡介

2023-06-30 06:41:43

GPT-3依舊延續自己的單向語言模型訓練方式，隻不過這次把模型尺寸增大到了1750億，并且使用45TB資料進行訓練。同時，GPT-3主要聚焦于更通用的NLP模型，GPT-3模型在一系列基準測試和特定領域的自然語言處理任務（從語言翻譯到生成新聞）中達到最新的SOTA結果。對于所有任務，GPT-3沒有進行任何微調，僅通過文本與模型進行互動。與GPT-2相比，GPT-3的圖像生成功能更成熟，不需經過微調，就可以在不完整的圖像樣本基礎上補全完整的圖像。GPT-3意味着從一代到三代的跨越實作了兩個轉向：

1.從語言到圖像的轉向；

2.使用更少的領域資料、甚至不經過微調步驟去解決問題。

2.1 預訓練模型一般流程

一般預訓練模型（如ELMo、BERT等）的流程如圖1-23所示，其中微調是一個重要環節。

第2章 GPT-3簡介

圖1-23 預訓練模型的一般流程

2.2 GPT-3 與BERT的差別

一般預訓練模型中微調是一個重要環節，但GPT-3卻無需微調，GPT-3與一般預訓練模型（這裡以BERT為例）還有很多不同之處，具體可參考圖1-24。

第2章 GPT-3簡介

圖1-24 GPT-3 與BERT的差別

2.3 GPT-3與傳統微調的差別

對下遊任務的設定大緻有以下四類：

1.Fine-Tunning（FT）：

FT利用成千上萬的下遊任務标注資料來更新預訓練模型中的權重以獲得強大的性能。但是，該方法不僅導緻每個新的下遊任務都需要大量的标注語料，還導緻模型在樣本外預測的能力很弱。雖然GPT-3從理論上支援FT，但沒有采用這種方法。

2.Few-Shot（FS）

模型在推理階段可以得到少量的下遊任務示例作為限制條件，但是不允許更新預訓練模型中的權重。

3.One-Shot（1S）

模型在推理階段僅得到1個下遊任務示例。

4.Zero-Shot（0S）

模型在推理階段僅得到一段以自然語言描述的下遊任務說明。GPT-3與傳統預訓練模型對下遊任務的處理方法的差別，可參考圖1-25。

第2章 GPT-3簡介

圖1-25 傳統微調與GPT-3采用的三種設定方法比較

2.4 GPT-3 示例

圖1-26 為使用GPT-3 進行文本糾錯的執行個體，從糾錯結果來看，效果還是令人驚奇。

第2章 GPT-3簡介

圖1-26 GPT-3 進行文本糾錯的執行個體

第2章 GPT-3簡介

2.1 預訓練模型一般流程

2.2 GPT-3 與BERT的差別

2.3 GPT-3與傳統微調的差別

1.Fine-Tunning（FT）：

2.Few-Shot（FS）

3.One-Shot（1S）

4.Zero-Shot（0S）

2.4 GPT-3 示例

繼續閱讀

吳恩達logistic回歸實作

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

吳恩達機器學習筆記（3）

吳恩達j機器學習之過拟合

吳恩達機器學習(一) 介紹

深度學習模型分析人類複雜疾病的準确性

疾病研究：重症肌無力

人工智能如何有效地運用于自然語言處理

新聞 | Mapbox 牽手阿裡，飛豬旅行上線六大城市地圖功能

【趨高機器視覺】機器視覺技術原了解析及解決方案

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

無人機--飛控科普