天天看點

谷歌内部檔案洩露:大模型已被開源偷家,不改變ChatGPT也會失色

作者:量子位

魚羊 編輯整理

量子位 | 公衆号 QbitAI

在這場大模型軍備競賽中,我們沒有護城河,OpenAI也沒有。

一份谷歌内部“洩密檔案”,正在網上一石激起千層浪。

谷歌内部檔案洩露:大模型已被開源偷家,不改變ChatGPT也會失色
谷歌内部檔案洩露:大模型已被開源偷家,不改變ChatGPT也會失色

全文挺長,但核心觀點十分明确:開源大模型迅猛發展,正在侵蝕OpenAI和谷歌的陣地。

并且,“除非改變閉源的立場,否則開源替代品将最終使它們(包括ChatGPT)黯然失色”。

如此觀點一出,立刻吸引了不少業内人士的關注。

Django架構的作者之一Simon Willison就轉發點贊,“這是最近我了解到的有關LLM最有趣的事”、“絕對值得一讀”。

谷歌内部檔案洩露:大模型已被開源偷家,不改變ChatGPT也會失色

據彭博社消息,文章原作者是谷歌進階軟體工程師Luke Sernau,而其“内部檔案”的真實性,也很快得到證明。

谷歌内部檔案洩露:大模型已被開源偷家,不改變ChatGPT也會失色

話不多說,一起來看具體内容。

核心觀點

  • 與開源大模型相比,谷歌在大模型品質方面仍有優勢,但差距正在以驚人的速度縮小。
  • 大語言模型是否會因開源迎來“Stable Diffusion時刻”還有待觀察,但其發展與圖像生成領域具有相同要素。
  • LoRA(低秩适應)在谷歌内部被低估了。
  • 巨型模型正在使我們減速。從長遠角度看,最好的模型是那些可以快速疊代的模型。
  • 資料品質比資料規模更重要。
  • 直接與開源競争是不明智的。

(以下為原文分享,經編輯)

谷歌&OpenAI沒有護城河

誰将跨越大模型的下一個裡程碑?令人不安的事實是,我們(谷歌)無法取得這場軍備競賽的勝利,OpenAI同樣不能——

就在兩邊激烈競争之時,第三方勢力一直在悄悄侵蝕我們的陣地。

谷歌内部檔案洩露:大模型已被開源偷家,不改變ChatGPT也會失色

這個“第三方”,就是開源。現在,一些“主要開源問題”已經被解決,舉幾個例子:

  • LLM(大語言模型)已經能在手機上運作:比如在Pixel 6上,可以以每秒5 token的速度運作基礎模型。
  • 可擴充的個人AI:人們可以在筆記本電腦上微調出個性化AI。
  • 負責任的釋出:盡管沒有完全解決,但圖像生成領域和文本生成領域都已經取得了很大進展,網上有許多無限制資源。
  • 多模态:目前多模态ScienceQA的SOTA模型,1小時内就能完成訓練。

雖然我們的模型在品質方面仍有優勢,但差距正在以驚人的速度縮小。

開源模型更快、更可定制、更私密且功能更強大。關鍵是,開源力量在用100美元和130億參數創造大模型,而我們在1000萬美元和5400億參數下苦苦掙紮。他們僅用幾周,而非幾個月就能完成大模型的訓練。

這對我們産生了深遠的影響:

  • 我們沒有秘密武器。我們最大的希望是學習谷歌之外其他人正在做的事,并與之合作。我們應該優先考慮實作第三方內建。
  • 當免費、無限制的替代品在品質上有所突破,人們将不會為受限制的模型付費。我們應該思考我們真正的價值是什麼。
  • 巨型模型正在拖慢我們的速度。從長遠來看,最好的模型是那些可以快速疊代的模型。既然我們知道在<200億的參數範圍内,模型有什麼可能性,我們就應該更多地關注模型的小型變體。
谷歌内部檔案洩露:大模型已被開源偷家,不改變ChatGPT也會失色

大語言模型的Stable Diffusion時刻

今年三月初,Meta的大語言模型LLaMA被洩露,開源社群得到了第一個真正有實力的基礎模型。

谷歌内部檔案洩露:大模型已被開源偷家,不改變ChatGPT也會失色

随即,“羊駝”家族瘋狂湧現,每隔幾天就有新的進展發生。

僅僅一個月,指令調優(instruction tuning)、量化、品質改進、人類評估、多模态、RLHF……就都出現了。

最重要的是,開源社群解決了擴充問題,使得人人都能參與其中親自嘗試。許多新想法都來自普通人。訓練和實驗的門檻,已經從一個大型研究機構的總産出,降低到了一個人、一晚上和一台高性能筆記本電腦。

很多人認為這是大語言模型(LLM)的“Stable Diffusion時刻”。

在圖像生成和LLM領域,低成本的公共參與都是通過LoRA(低秩适應)實作的,同時還有規模上的重大突破(比如圖像合成的latent diffusion、LLM的Chinchilla)。

結果就是,品質足夠高的模型吸引來了全世界的人才和機構,圍繞開源大模型産生的新想法和疊代,很快超過了大型企業。

谷歌内部檔案洩露:大模型已被開源偷家,不改變ChatGPT也會失色

在圖像領域,這些貢獻已經證明其價值:開源使Stable Diffusion走上了與DALL-E完全不同的道路,激發了DALL-E所沒有的産品內建、市場、使用者界面等等創新。

Stable Diffusion也是以出圈,産生了遠超DALL-E的文化影響力。

在LLM領域,同樣的事情是否會再次發生還有待觀察,但基本要素是相同的。

谷歌忽略了什麼

最近,開源所取得的創新成果直接解決了我們仍在努力克服的問題。更多關注開源工作,可以幫助我們避免重複造輪子。

其中,LoRA是一種非常強大的技術,我們應該加大關注。

LoRA通過低秩分解來表示模型權重的更新,這可以大大縮減更新矩陣的大小,使得模型微調的成本更低、時間更短。

谷歌内部檔案洩露:大模型已被開源偷家,不改變ChatGPT也會失色

在消費級硬體上,花幾個小時微調出一個個性化語言模型,這是一項重要的突破。但這項技術在谷歌内部被低估了,盡管它直接影響了我們最雄心勃勃的幾個項目。

另外,從頭開始訓練模型是一條艱難的道路。

LoRA如此有效的部分原因在于:和其他形式的微調一樣,它是可堆疊的。雖然單獨的微調是低秩的,但它們的總和不需要,模型的全秩更新可以随時間推移而累積。

這意味着,随着更好的資料集和任務的出現,模型可以低成本保持最新狀态,而無需負擔完整運作的成本。

相比之下,從頭訓練大模型不僅會丢掉預訓練,還會丢失已經完成的疊代改進。在開源世界,這些改進會使模型很快占據主導地位,這就使得從頭重新訓練顯得極為昂貴。

我們應該思考,新應用、新想法是否真的需要一個全新的模型來實作。如果我們确實有重大的架構改進,使得原有的模型權重無法複用,那麼我們應該專注于更積極的蒸餾方法,盡可能地保留上一代的功能。

維護大模型使谷歌處于劣勢

在最流行的模型規模上,LoRA的成本非常低(約100美元)。這意味着幾乎每一個對大模型有想法的人,都可以把這些想法落到現實。

短至一天的訓練時間已是常态。

以這樣的速度,所有這些微調所産生的累積效應,很快就會彌補模型規模帶來的劣勢。

事實上,就工程師的工時而言,這些模型的改進速度大大超過了我們的大模型所能做的,其中最好已經跟ChatGPT幾乎沒有差別了。

專注于維護地球上一些最大的模型,實際上使我們處于劣勢。

此外,資料品質比資料規模更重要。

直接與開源競争是一種失敗的主張

開源大模型最近的進展對我們的業務戰略有直接的影響。如果有免費、高品質的替代方案,誰會為谷歌有限制的付費産品買單呢?

我們也不應指望能夠趕上。現代網際網路在開源的基礎上運作是有原因的。開源有一些我們無法複制的顯著優勢。

我們需要開源,勝過開源社群需要我們。

對我們的技術保密其實是一個脆弱的主張。每過一段時間,都會有谷歌的研究人員離職去往其他公司。是以我們可以假定,他們了解我們所知道的一切。

但是,由于大語言模型的負擔成本正在降低,保持技術優勢會變得更加困難。

世界各地的研究機構都在互相借鑒,以一種比我們自身能力更廣的方式探索解決方案。在這種外部創新不斷挑戰我們技術價值的情況下,我們可以選擇緊守我們的秘密,或者嘗試互相學習。

現在,開源大模型的很多創新,都是源于Meta LLaMA模型的洩露。但Meta又成為這一程序中一個明顯的赢家——他們相當于獲得了整個星球的免費勞動力。由于大多數開源創新都基于他們的架構,是以沒有什麼能阻止他們将這些疊代進化整合到他們的産品中。

擁有生态系統的價值怎麼強調都不為過。谷歌本身已在開源産品,如Chrome和Android中,成功驗證了這一點。通過擁有孵化創新的平台,谷歌鞏固了自己作為意見領袖和方向制定者的地位,獲得了塑造比自身更宏大的想法的能力。

谷歌内部檔案洩露:大模型已被開源偷家,不改變ChatGPT也會失色

△Midjourney生成

我們對模型的控制越嚴密,開源替代方案的吸引力就越大。谷歌和OpenAI都傾向于防禦性的釋出模式,以確定他們能嚴格控制模型的使用方式。但這是徒勞的,任何想将LLM用于未經準許目的的人,都可以選擇免費的開源模型。

谷歌應該讓自己成為開源社群的上司者,通過更廣泛的合作對話,而非忽視來起到帶頭作用。

這必然意味着放棄對我們模型的一些控制。但這種妥協是不可避免的。我們不能既希望推動創新,又要控制創新。

谷歌内部檔案洩露:大模型已被開源偷家,不改變ChatGPT也會失色

考慮到OpenAI目前的封閉政策,有人會覺得這些關于開源的讨論不公平。但事實是,我們已經通過挖對方牆腳的形式,與他們分享了一切。在這種趨勢被扼制之前,保密是一個有争議的問題。

最後,OpenAI并不重要。在對于開源的态度上,他們犯了與我們相同的錯誤。他們保持優勢的能力必然受到質疑。除非他們改變立場,否則開源替代品可以并最終将使其黯然失色。

至少在這方面,我們可以邁出第一步。

如何定義“護城河”

據彭博社消息,這篇文章是谷歌進階軟體工程師Luke Sernau四月初在谷歌内網釋出的。在被洩露之前,已經在谷歌内部被大量轉發。

而原文一經流出,也引起了網友們的熱烈讨論。

不過,也有不少網友并不認同Sernau的觀點。

任何用過GPT-4的人都知道,開源模型與之相距甚遠,甚至比不上GPT-3.5。OpenAI肯定有護城河,至少目前是這樣。我不确定谷歌有沒有,Bard反正是挺讓人失望的。
谷歌内部檔案洩露:大模型已被開源偷家,不改變ChatGPT也會失色

有網友認為,Sernau關于與開源社群合作可以讓模型更快改進的觀點值得認同。但其實無論是開源還是閉源,改進得快的那一方都将獲勝。

Midjourney目前比Stable Diffusion更受歡迎,因為它目前更好。但Midjourney是閉源的。

我想說的是,使用者會盯緊最好的模型。開源并不總能獲勝。

谷歌内部檔案洩露:大模型已被開源偷家,不改變ChatGPT也會失色

還有網友直接用一張圖回怼:

谷歌内部檔案洩露:大模型已被開源偷家,不改變ChatGPT也會失色

但無論如何,“開源模型每周都在變得更好”。

而有關大模型的精彩故事,才剛剛開篇。

參考連結:

[1]https://www.semianalysis.com/p/google-we-have-no-moat-and-neither

[2]https://www.bloomberg.com/news/articles/2023-05-05/google-staffer-claims-in-leaked-ai-warning-we-have-no-secret-sauce

[3]https://news.ycombinator.com/item?id=35813322

[4]https://twitter.com/simonw/status/1654158105221922816

[5]https://www.reddit.com/r/MachineLearning/comments/137rxgw/d_google_we_have_no_moat_and_neither_does_openai/

— 完 —

量子位 QbitAI · 頭條号簽約

關注我們,第一時間獲知前沿科技動态