不會太大、密集的純文字模型，GPT-4的新一波預測來了

選自towardsdatascience

作者：Alberto Romero

機器之心編譯

機器之心編輯部

分析師 Alberto Romero 對 GPT-4 作出了有理有據的推測。

2020 年 5 月，在 GPT-2 釋出一年後 GPT-3 正式釋出，而 GPT-2 也是在原始 GPT 論文發表一年後釋出的。按照這種趨勢， GPT-4 早在一年前就該釋出了，但至今尚未面世。

OpenAI 的首席執行官 Sam Altman 幾個月前表示即将推出 GPT-4 ，預計将在 2022 年 7 月至 8 月釋出。

GPT-3 的強大性能讓人們對 GPT-4 的期望頗高。然而關于 GPT-4 的公開資訊甚少，Altman 在去年的一次 Q&A 中就 OpenAI 對 GPT-4 的想法給出了一些提示。他明确表示 GPT-4 不會有 100T 參數。

正因為 GPT-4 的公開資訊很少，人們對其做出諸多預測。現在，一位名為 Alberto Romero 分析師基于其 OpenAI 和 Sam Altman 透露的資訊，以及目前趨勢和語言 AI 的最新技術，對 GPT-4 作出了一番新的預測，以下是他的預測原文。

模型大小：GPT-4 不會非常大

GPT-4 不會成為最大的語言模型，Altman 曾說它不會比 GPT-3 大多少。它的大小可能在 GPT-3 和 Gopher 之間 (175B -280B)。

這個推測有充分的理由。

Nvidia 和微軟去年聯合建立的威震天 - 圖靈 NLG（ MT-NLG）号稱是擁有 530B 參數的最大密集神經網絡，參數量已經是 GPT-3 的 3 倍，而最近谷歌的 PaLM 已有 540B 參數。但值得注意的是，在 MT-NLG 之後出現的一些較小的模型反而達到了更高的性能水準。

這意味着：更大不一定更好。

業内很多公司已經意識到模型大小不是性能的決定因素，擴大模型也不是提升性能的最好方法。2020 年，OpenAI 的 Jared Kaplan 及其同僚得出結論：當計算預算的增加主要用于根據幂律關系擴充的參數量時，性能提升幅度最大。

然而，以超大規模的 MT-NLG 為例，它在性能方面并不是最好的。事實上，甚至在任何單一類别的基準測試中都不是最好的。較小的模型，如 Gopher (280B) 或 Chinchilla (70B) 在一些任務上比 MT-NLG 好得多。

顯然，模型大小并不是實作更好的語言了解性能的唯一因素。

業内多家公司開始放棄「越大越好」的教條。擁有更多參數也會帶來一些副作用，例如計算成本過高、性能進入瓶頸期。當能夠從較小的模型中獲得相似或更好的結果時，這些公司就會在建構巨大模型之前三思而後行。

Altman 表示，他們不再專注于讓模型變得更大，而是讓更小的模型發揮最大的作用。OpenAI 是擴充假設（scaling hypothesis）的早期倡導者，但現在已經意識到其他未探索的路徑也能改進模型。

是以，GPT-4 不會比 GPT-3 大很多。OpenAI 将把重點轉移到其他方面，例如資料、算法、參數化和價值對齊（alignment）等，這可能會帶來更顯著的改進。關于 100T 參數模型的功能，我們隻能等待了。

優化

語言模型在優化方面存在一個關鍵限制，即訓練成本非常高。以至于研發團隊不得不在準确性和成本之間進行權衡。這通常會導緻模型明顯欠優化。

GPT-3 隻訓練了一次，當在一些用例中出現錯誤時就要重新進行訓練。OpenAI 決定 GPT-4 不采取這種方式，因為成本太高，研究人員無法找到模型的最佳超參數集（例如學習率、批大小、序列長度等）。

高訓練成本的另一個後果是對模型行為的分析要受到限制。Kaplan 的團隊得出模型大小是提高性能最相關的變量時，他們并沒有考慮訓練 token 的數量，這需要大量的計算資源。

不得不承認，一些大型公司依照 Kaplan 團隊的結論，在擴大模型上「浪費」了數百萬美元。現在，以 DeepMind 和 OpenAI 為首的公司正在探索其他方法。他們試圖找到最佳的模型，而不僅僅是更大的模型。

優化參數

上個月，微軟和 OpenAI 證明用優化後的超參數進行訓練，GPT-3 能夠獲得較大的改進。他們發現 6.7B 版本的 GPT-3 性能大幅提升，可與最初的 13B GPT-3 相媲美。超參數調優帶來的性能提升，相當于參數數量增加了一倍。

他們利用一種稱為μP 的新型參數化方式，其中小模型的最佳超參數對于同系列的較大模型也是最佳的。是以，μP 能夠以一小部分訓練成本優化任意大小的模型，幾乎毫無成本地将超參數遷移到更大的模型中。

優化計算模型

幾周前，DeepMind 重新審視了 Kaplan 等人的發現，并意識到：與人們認為的相反，訓練 token 的數量對性能的影響與模型大小的影響一樣大。DeepMind 得出結論：計算預算應該平均配置設定給擴充參數和資料。他們用大型語言模型 4 倍的資料量（1.4T token）訓練 Chinchilla（70B）證明了這個假設。

圖源：DeepMind

結果很明确，Chinchilla 在許多語言基準測試中「顯著」優于 Gopher、GPT-3、MT-NLG 等語言模型，這表明目前的大模型訓練不足且規模過大。

根據 DeepMind 的發現，GPT-4 将比 GPT-3 略大，它達到計算最優所需的訓練 token 數量将約為 5 萬億，比目前資料集高出一個數量級。為了最小化訓練損失，訓練 GPT-4 所需的 FLOP 将是 GPT-3 的約 10-20 倍（參照 Gopher 的計算量）。

Altman 曾在 Q&A 中表示 GPT-4 的計算量将比 GPT-3 更大，他可能指的就是這一點。

可以肯定的是，OpenAI 将緻力于優化模型大小以外的其他變量。找到最佳的超參數集以及最佳的計算模型大小和參數數量，這可能會讓模型在所有基準測試中獲得令人難以置信的提升。

多模态：GPT-4 将是純文字模型

人類的大腦是多感官的，因為我們生活在一個多模态的世界中。一次隻以一種模态感覺世界極大地限制了人工智能了解世界的能力。是以，人們認為深度學習的未來是多模态模型。

然而，良好的多模态模型比良好的純語言或純視覺模型更難建構。将視覺和文本資訊組合成單一的表征是一項非常艱巨的任務。我們對大腦如何做到這一點的認知還非常有限，難以在神經網絡中實作它。

大概也是出于此原因，Altman 在 Q&A 中也表示，GPT-4 不會是多模态的，而是純文字模型。我猜測在轉向下一代多模态 AI 之前，他們正試圖通過調整模型和資料集大小等因素達到語言模型的極限。

稀疏性：GPT-4 将是一個密集模型

稀疏模型利用條件計算，使用模型的不同部分來處理不同類型的輸入，近來取得了巨大成功。這些模型可以輕松擴充到超過 1T 的參數 mark 上，而不會導緻過高的計算成本，進而在模型大小和計算預算之間建構出正交關系。然而，這種 MoE 方法的優勢在非常大的模型上會減弱。

鑒于 OpenAI 一直專注于密集語言模型，我們有理由預期 GPT-4 也将是一個密集模型。

不過，人類的大腦嚴重依賴于稀疏處理，稀疏性與多模态類似，很可能會主導未來幾代神經網絡。

GPT-4 将比 GPT-3 更加對齊

OpenAI 為解決 AI 價值對齊（alignment）的問題付出了諸多努力：如何讓語言模型遵循我們的意圖并遵守我們的價值觀。這不僅需要數學上讓 AI 實作更準确的了解，而且需要在哲學方面考量不同人類群體之間的價值觀。OpenAI 已嘗試在 InstructGPT 上接受人工回報訓練以學會遵循指令。

InstructGPT 的主要突破在于，無論其在語言基準上的結果如何，它都被人類評估者一緻認為是一比 GPT-3 更好的模型。這表明使用基準測試作為評估 AI 能力的唯一名額是不合适的。人類如何看待模型同樣重要，甚至更重要。

鑒于 Altman 和 OpenAI 對有益 AGI 的承諾，我相信 GPT-4 将基于他們從 InstructGPT 中獲得的發現。

他們将改進對齊模型的方式，因為 GPT-3 隻采用了英文語料和注釋。真正的對齊應該包含來自不同性别、種族、國籍、宗教等方面的資訊特征。這是一個巨大的挑戰，朝着這個目标邁出一步将是意義重大的。

綜上，我關于 GPT-4 的預測大緻包括以下幾個方面：

模型大小：GPT-4 會比 GPT-3 大，但不會很大。模型大小不會是其顯著特征；

優化：GPT-4 将使用比 GPT-3 更多的計算，它将在參數化（最優超參數）和擴充定律（訓練 token 的數量與模型大小一樣重要）方面做出新的改進；

多模态：GPT-4 将是純文字模型，OpenAI 正試圖将語言模型發揮到極緻，然後再轉變成像 DALL·E 這樣的多模态模型；

稀疏性：GPT-4 遵循 GPT-2 和 GPT-3 的趨勢，将是一個密集模型，但稀疏性未來将占據主導地位；

對齊：GPT-4 将比 GPT-3 更符合人們的價值要求，它将應用從 InstructGPT 中學到的經驗。

Alberto Romero 根據 Altman 和 OpenAI 給出的資訊作出了有理有據的推測，我們期待這些預測在幾個月後即将面世的 GPT-4 中得到印證。

不會太大、密集的純文字模型，GPT-4的新一波預測來了

繼續閱讀

谷歌硬剛OpenAI，矽谷大戰繼續更新

科技大事件丨蘋果承認新品存在 Bug；OpenAI 釋出 GPT-4o 模型

OpenAI，不再是「布道者」

OpenAI一夜之間革了Siri和同傳的命，GPT-4o五大核心能力炸場！

重磅！OpenAI聯合創始人突然離職

谷歌 I/O 發 AI 全家桶，AI 搜尋很快到來；OpenAI 首席科學家離職；Meta 研究帶攝像 AI 耳機

GPT-4o發力端側應用，OpenAI更在乎情緒價值

知識圖與大型語言模型的協同作用

一分鐘内創造電影級視訊：谷歌Veo模型的非凡之旅，OpenAI你慌不

OpenAI、谷歌“掰手腕” 大模型給人工智能裝上“眼睛耳朵嘴巴”

位元組跳動釋出豆包大模型開啟以厘計價；谷歌宣布全面進入Gemini時代；OpenAI首席科學家離職

Google“絕地反擊”OpenAI新模型GPT-4o

OpenAI奇襲，谷歌反擊

OpenAI與谷歌，或許都未亮明底牌

多功能RNA分析，百度團隊的RNA語言模型登Nature子刊

OpenAI釋出全新AI模型GPT-4o，微軟卻稱自己才是AI“滅霸”