GPT-4是8x2200億參數的混合模型？這個小道消息今天傳瘋了

2023-06-21 16:32:00

機器之心報道

編輯：吳昕

George Hotz：除了蘋果之外，大部分公司保密的原因都不是在隐藏什麼黑科技，而是在隐藏一些‍「不那麼酷」的東西。

「GPT-4 的參數量高達 100 萬億。」相信很多人還記得這個年初刷屏的「重磅」消息和一張被病毒式傳播的圖表。

不過很快，OpenAI 的 CEO Sam Altman 就出來辟謠，證明這是一條假消息，并表示，「關于 GPT-4 的謠言都很荒謬。我甚至不知道這從何而起。」

實際上，許多人相信并傳播這樣的謠言是因為近年來 AI 社群不斷在增加 AI 模型的參數規模。谷歌在 2021 年 1 月釋出的 Switch Transformer 就把 AI 大模型參數量拉高到了 1.6 萬億。在此之後，很多機構也陸續推出了自己的萬億參數大模型。據此，人們有充分的理由相信，GPT-4 将是一個萬億參數的巨量模型，100 萬億參數也不是不可能。

雖然 Sam Altman 的辟謠幫我們去掉了一個錯誤答案，但他背後的 OpenAI 團隊一直對 GPT-4 的真實參數量守口如瓶，就連 GPT-4 的官方技術報告也沒透露任何資訊。

直到最近，這個謎團疑似被「天才黑客」喬治・霍茲（George Hotz）捅破了。

喬治・霍茲因 17 歲破解 iPhone、21 歲攻陷索尼 PS3 而聞名，目前是一家研發自動駕駛輔助系統的公司（comma.ai）的老闆。

最近，他接受了一家名為 Latent Space 的 AI 技術播客的采訪。在采訪中，他談到了 GPT-4，稱 GPT-4 其實是一個混合模型。具體來說，它采用了由 8 個專家模型組成的內建系統，每個專家模型都有 2200 億個參數（比 GPT-3 的 1750 億參數量略多一些），并且這些模型經過了針對不同資料和任務分布的訓練。

在這段播客播出之後，PyTorch 建立者 Soumith Chintala 表示自己似乎聽過同樣的「傳聞」，很多人可能也聽過，但隻有 George Hotz 在公開場合将其說了出來。

「混合模型是你在無計可施的時候才會考慮的選項，」George Hotz 調侃說，「混合模型的出現是因為無法讓模型的參數規模超過 2200 億。他們希望模型變得更好，但如果僅僅是訓練時間更長，效果已經遞減。是以，他們采用了八個專家模型來提高性能。」至于這個混合模型是以什麼形式工作的，George Hotz 并沒有詳細說明。

為什麼 OpenAI 對此諱莫如深呢？George Hotz 認為，除了蘋果之外，大部分公司保密的原因都不是在隐藏什麼黑科技，而是在隐藏一些「不那麼酷」的東西，不想讓别人知道「隻要花 8 倍的錢你也能得到這個模型」。

對于未來的趨勢，他認為，人們會訓練規模較小的模型，并通過長時間的微調和發現各種技巧來提升性能。他提到，與過去相比，訓練效果已經明顯提升，盡管計算資源沒有變化，這表明訓練方法的改進起到了很大作用。

目前，George Hotz 關于 GPT-4 的「爆料」已經在推特上得到了廣泛傳播。

有人從中得到了靈感，聲稱要訓練一個 LLaMA 集合來對抗 GPT-4。

還有人說，如果真的像 George Hotz 說的那樣，GPT-4 是一個由 8 個 2200 億參數的專家模型組合的混合模型，那很難想象背後的推理成本有多高。

需要指出的是，由于 George Hotz 并未提及消息來源，我們目前無法判斷以上論斷是否正确。有更多線索的讀者歡迎在評論區留言。

GPT-4是8x2200億參數的混合模型？這個小道消息今天傳瘋了

繼續閱讀

重複測量 - MIXED混合模型

混合模型 - Mixed

mplus資料分析：增長模型潛增長模型與增長混合模型再解釋

FreelingSpringGroup概念混合模型FreelingSpringsGroup概念混合模型的假設評估了主泉的

美國密蘇裡奧紮克斯複雜的分流泉系統中的補給混合多倫多泉是一個複雜的分流岩溶泉系統，在美國密蘇裡奧紮克斯有11個常年泉。C

泉水實體化學特性的差異所有站點的溫度、pH值和SpC值的U檢驗結果表明存在顯着的季節性差異，p值4減少到3發生在50%來

高斯混合模型 GMM 的詳細解釋

全新JordanMVP678亮相《BlackRoyal》JordanBrand對嘗試不同的設計元素并不陌生，但它經常因其

在人工智能領域中，數學是起着非常重要的作用的，以下是一些例子：1.線性代數：在神經網絡中，通過矩陣運算來實作前向傳播和誤

微通道内CuO納米流體傳熱和流動分叉的數值模拟前言：“納米流體”一詞是由Choi首次使用的，并着重于模組化納米流體的熱導率

SPCBIG-EC：用于智能合約漏洞檢測的穩健串行混合模型

SCR系統内部單通道流場的數值模拟和轉換特性選擇性催化還原（SCR）系統在減少各種燃燒過程中的氮氧化物（NOx）排放

什麼？GPT-4是8x2200億參數的混合模型？小道消息滿天飛!

平步雲APS系統是一種先進的的管理系統，具有實時、同步、限制模拟能力和優化對比功能，可以執行長期和短期的計劃。該系統采用

PRML第九章讀書筆記——Mixture Models and EM K均值/K中心點、高斯混合奇異性、EM觀點下的高斯混合/K-means/混合伯努利分布/貝葉斯線性回歸、推廣EM算法9.1 K-means Clustering9.2 Mixtures of Gaussians9.3 An Alternative View of EM9.4 The EM Algorithm in General