國産大模型不再追趕 OpenAI。

作者 | 賴文昕

編輯 | 陳彩娴

近日（5.7-5.11），第十二屆國際學習表征會議（ICLR）在奧地利維也納的展覽會議中心召開。ICLR 2024 的論文終審工作自 1 月份啟動以來，共收到了7262篇送出論文，相較于上一年度的 4966 篇，增幅達到了 46.1%，接近翻了一番。在嚴格的評審過程中，大會最終接受了 2260 篇論文，整體接收率維持在 31%，與去年的31.8%基本持平，其中 Spotlights 和 Oral 兩種類型的論文展示分别有 367 篇（占5%）和 86 篇（占1.2%）論文獲選。除了論文數量激增外，大模型（LLM）也成為今年 ICLR 的熱門關鍵詞之一。以 LLM 為研究主題的投稿論文數量暴漲，研究團隊來自全球各地，涵蓋多個細分方向，ICLR 也由此吸引了美國微軟、谷歌、OpenAI、Anthropic、Meta，以及中國智譜、百度、面壁等多個科技團隊的參會。可以說，今年人工智能領域首個舉辦的 ICLR 不僅是一個傳統的學術會議，也是全球工業界大模型團隊正面較量的縮影。ICLR 2024 的截稿日期是2023 年 9 月 28 日，但在過去的大半年，LLM 在 AI 領域依然狂飙不止。更值得關注的是，從今年的 ICLR 論文成果與演講來看，經過一年的研究，各家在大模型上的研究已經不隻停留在“研究 OpenAI”、“追趕 OpenAI” 的階段。尤其是中國的研究團隊，他們已經不再單純模仿 OpenAI。

相反，LLM 的研究團隊都不約而同地提出了自己對 AGI 的思考。

LLM 成為絕對主角ICLR 是由深度學習領軍人物、圖靈獎三巨頭之二的 Yoshua Bengio 和 Yann LeCun 牽頭發起的，首屆會議于 2013 年在美國亞利桑那州的斯科茨代爾舉辦。盡管與 NeurIPS（神經資訊處理系統大會）和 ICML（國際機器學習大會）相比，ICLR 的年資尚淺，但其學術影響力和認可度正日益提升，現已與前兩者一起被公認為機器學習領域的三大頂級會議，參會人數與投稿數量也逐年顯著增加。

ICLR曆年資料：https://papercopilot.com/statistics/iclr-statistics/會議召開的前一天，ICLR 2024 的官方網站公布了本年度的獲獎論文名單，特别表彰了 5 篇傑出論文和 11 篇榮譽提名論文。5 篇傑出論文主要圍繞圖像擴散模型、模拟人機互動、預訓練和微調、離散蛋白質序列資料的模組化與 Vision Transformers 展開研究，其中預訓練與微調就是大模型相關。根據 ICLR 公布的接收論文資料，被提及次數最多的前十個關鍵詞分别是：大語言模型（LLM）、強化學習、圖神經網絡、擴散模型、深度學習、表征學習、生成模型、聯邦學習、語言模型與可解釋性。在這些關鍵詞中，LLM 排名第一，被 318 篇研究提及，與位列第二名的強化學習（201篇）相比，整整多了 1/3，毫無疑問成為 ICLR 的絕對主角。

這 301 篇以 LLM 為研究主題的工作所涵蓋的具體方向也十分廣泛，如關于智能體（Agent）的研究、與強化學習結合、與其他生成模型結合、與三維重建結合、在 NLP 領域的應用、在多模态領域的應用、碳足迹模組化等等。在被 ICLR 接收的 LLM 相關論文中，有不少過去幾個月令人驚豔的新科研成果或産品，比如由深度賦智等中國團隊開發、開源的多 Agent 開發架構 MetaGPT。MetaGPT 模拟了一個完整的虛拟軟體團隊，包括多個角色如産品經理和工程師，采用标準操作流程，旨在自動化程式設計任務，解決大模型應用問題，能輸出設計、架構和代碼。這篇論文在 ICLR 2024 中得到了 8.0 的高分。普林斯頓大學和芝加哥大學聯合釋出的 LLM 評估架構 SWE-bench 也被選中為 Oral 論文。這是一個由來自 GitHub 中真實的 2294 個軟體工程問題以及 12 個流行的 Python 存儲庫中的拉取請求所組成的評估架構，通過給定代碼庫以及要解決的問題的描述，測評 LLM 編輯代碼庫解決問題的能力。解決 SWE-bench 中的問題通常需要同時了解和協調多個函數甚至是檔案之間的更改，調用模型與執行環境互動，處理極長的上下文，并執行遠超出傳統代碼生成任務的複雜推理。可以說，這個測評标準的出現，讓市面上大模型的性能比拼有了更直覺的資料。此外，還有MIT、港中文及英偉達提出的超長上下文 LLM 高效微調方法 LongLoRA 。這是一種十分有效的微調方法，通過稀疏的局部注意力進行微調， LongLoRA 實作了上下文擴充，節省了計算量，并具有與普通注意力微調相似的性能。ICLR 2024 還出現了 LLM 與碳足迹的新穎結合。來自印第安納大學與傑克遜州立大學的研究團隊發現，能在訓練前預測新神經網絡的碳足迹的工具 mlco2 存在局限性，如無法估算密集或專家混合（MoE）LLM 的碳足迹，忽視關鍵架構參數，僅關注GPU，且無法對具體碳足迹進行模組化。為解決這些局限，他們開發了一種專為密集和 MoE LLM 設計的、端到端碳足迹預測模型，顯著提高了 LLM 碳足迹估算的準确性。關于 LLM 與三維重建的結合，澳洲國立大學與 Adobe 研究中心提出的 LRM，能夠在短短5秒内從單個輸入圖像預測對象的3D模型。與以往在小規模資料集上訓練的方法不同，LRM 采用高度可擴充的、基于 Transformer 的架構，擁有5億個可學習參數，并可以直接從資料集預測神經輻射場（NeRF）。研究團隊在大約包含100萬個對象的海量多視圖資料上以端到端的方式訓練了 LRM，包括來自 Objaverse 的合成渲染和來自 MVImgNet 的真實截圖。無論是 MetaGPT 還是 LongLoRA，國内大模型的研發人員均參與其中，放眼望去，入選的華人作者更是比比皆是。而來到 ICLR 2024 的大會現場，中國的大模型初創團隊如智譜 AI，網際網路科技大廠如位元組、百度、美團、華為、螞蟻的身影更是遍布在展會各處，在 32 個參會企業中占領了其中的 6 席。Keynote 演講中，智譜等來自中國的大模型公司也作了深入分享，吸引了來自國内外 LLM 參會者的廣泛關注。

不難發現，中國團隊已成為大模型研究熱潮中不可忽視的主力軍。

從 ICLR 看見“中國 AGI”2023 年 ChatGPT 引爆大模型熱潮後，AGI 就成為了備受關注的焦點議題。如何通往 AGI，成為了無論是技術驅動、産品驅動還是商業驅動團隊都要争相回答的問題。從 GPT-3 到 GPT-3.5，從 ChatGPT 到 GPT-4 與 GPT-4V，OpenAI 的下一步“GPT-X”一度成為行業最熱的話題猜測，并曾被狂熱地視為“LLM 的下一步”。然而，随着越來越多的研究者加入，中國的大模型研究者開始批判思考“OpenAI 模式”與“GPT 路線”。據 AI 科技評論與多個中國大模型團隊的交流，他們越來越相信，如果一味追趕 OpenAI，那麼“我們将最多成為 OpenAI，卻無法超越 OpenAI”。比如，有大模型團隊指出，大模型不具備“智能湧現”的能力，一味追求通過擴大模型規模來實作模型智能的路線風險極高，大模型要通過具體的産品與服務來實作價值。2023 年斯坦福團隊獲選 NeurIPS 最佳論文的工作“Are Emergent Capabilities of LLMs a Mirage?”就指出，大模型的智能湧現能力也許是錯覺。OpenAI 的單向路線以及過度依賴長序列的方法，也引起行業的反思。以長文本為例，如果說大模型的目标是實作 AGI，那麼從 AGI 的終極目标倒推，AGI 所應包含的能力并不是 OpenAI 大模型的現有架構所能很好解決的。類比人類的能力，人會通過多次做一件事、越做越熟練，且掌握一項技能（如騎自行車）後就不會遺忘，但目前的大模型并不具備類似人的這種“經驗性記憶”，長文本與長序列目前也沒有顯示出表達這種能力的潛力。相比模仿 OpenAI，中國的大模型創業者開始趨于從 AGI 的第一性原理出發，思考一條獨特的、同時符合中國市場與服務的技術路線。即使是被外界視為從模型到産品全面對标 OpenAI 的智譜 AI，在如何實作 AGI 的路徑上也有與 OpenAI 不同的思考。這一差異在智譜團隊于 ICLR 2024 大會現場發表的主旨演講内容中可見一斑。作為唯一受邀作主旨演講的中國 LLM 團隊，智譜在 ICLR 圍繞“ChatGLM 的 AGI 之路”分享了團隊的獨特思考。盡管模型矩陣與 OpenAI 相似，但智譜的 AGI 核心與路徑卻大大差別于 OpenAI。

從2019 年開始，智譜的大模型研究以“認知”（Cognition）為核心，借鑒人類思維，将模型的能力研發分為負責快速直覺的“系統 1”與負責慢速邏輯的“系統 2”。這借鑒了 Yoshua Bengio 最早提出的“System 1”與“System 2”理論。智譜的思考是：系統 1 以 LLM 為核心，能迅速響應簡單問題；系統 2 則采用知識圖譜建構，能處理複雜的推理任務，建立短期和長期記憶，還具備無意識學習和自我管理等功能。這是為了讓計算機程式能像人類運用左右腦一樣，既能快速回答簡單問題，又能通過推理回答複雜問題。此外，智譜的 GLM 大模型采取雙向自回歸路線，而 OpenAI 的 GPT 系列采取單向自回歸路線。雙向自回歸的特點是：在生成 token 時，GLM 可以隻關注單側的上下文；在采用随機化的 token 控制政策處理已知 token 時，GLM 又能同時考慮兩側的上下文，實作對單向和雙向注意力機制的雙重管理。這相當于将 BERT 的填空功能與 GPT 的生成能力相結合，通過自回歸的方式做“完形填空”。是以，在某些任務，GLM-130B 的性能能超過 GPT-3。此外，智譜的大模型技術團隊還認為，人類大腦具有多模态的感覺與了解能力，以及短期和長期記憶能力以及推理能力的組合。是以，視覺語言模型（VLM）也是通往 AGI 不可缺少的一環。CogVLM 就此誕生。這是一個開源的圖像了解模型，旨在彌合 LLM 與視覺編碼器之間的差距。通過将文本資訊與視覺編碼相結合，并對該組合子產品進行訓練，CogVLM 實作了文本與圖像間精确的映射，極大地提升了模型對視覺内容的了解和生成能力，也被用于 Stable Diffufion 3 的圖像标注。技術團隊還研發了一個創新級聯架構 CogView3。作為第一個在文本到圖像生成領域實作級聯擴散的模型， CogView3 在人類評估中比目前最先進的開源文本到圖像擴散模型 SDXL 性能高出77.0%，推理時間卻僅為其大約一半的長度，其蒸餾變體在性能相當的情況下，甚至隻需 SDXL 的1/10的推理時間。随着 CogVLM 的加入，GLM-4V 也投入了使用，無論是面對包含世界常識的圖檔還是需要了解推理的圖表，GLM-4V 都能提供言之有物的回複。為了讓 GLM-4V 能自動産生不同的功能，如增加長文本的模式以儲存長期記憶，或從回報中不斷自我學習完善，GLM 大模型技術團隊開發了能為 LLM 啟用通用代理（Agent）能力的 AgentTuning。此前，大模型訓練是通過輸入資料讓其不斷學習和微調，但這個方法的缺點是它無法推廣至其他更廣泛的情況。而 AgentTuning 隻需用少量案例和有限的标記資料，就可以将訓練好的模型推廣到不同的模型之中。與此同時，大模型的“湧現能力”同樣是智譜技術團隊一直在探索的問題。在 LLM 烈火烹油的幾年間，Scaling Law 被封為鐵律，不少人認為模型大小與訓練資料量的增加才能讓模型“智能湧現”。OpenAI 科學家 Jason Wei 于2022年在機器學習期刊 TMLR 上發表了論文，提出 LLM 湧現能力中的某些能力僅在大模型中顯現，小模型并不具備，是以大模型的新興能力無法僅憑小模型的性能來預測，而增加模型的規模後，新興能力自然會呈線性提高。而智譜在不久前釋出的研究卻提出了一個新的了解：損失（Loss）才是湧現的關鍵，而非模型參數。将訓練損失标為 X 軸、模型性能标為 Y 軸後，研究人員發現，如果訓練損失達到了2.2的門檻值，模型性能就會攀升。由此可見，模型的“湧現能力”除了與模型大小、訓練資料量緊密關聯，也可能源自于訓練損失。

論文位址：https://arxiv.org/pdf/2403.15796.pdf

可以預見，GLM 系列将迎來新更新，GLM-4.5 及其後續版本将融合超級智能（SuperIntelligence）和超級對齊（SuperAlignment）技術，在增強模型的安全性的基礎上建構全面的多模态模型。而這些成果的疊代，都是源于一個團隊的創新思考。在 ICLR 大會演講中，智譜提出了自己的 AGI 思考：首先是在文本這一最關鍵的智能基礎上混合圖像、視訊、音頻等多種模态，将 LLM 應用于聊天、OCR 識别等場景中；接着開發虛拟的 Agent 來協助使用者完成多種任務，再之後是開發能與現實世界互動并得到其回報的 Agent，接下來甚至可能是機器人，通過機器人和現實世界互動後得到真實回報、以進一步實作 AGI……智譜團隊還提出了一個有意思的概念：GLM-OS。在他們的設想中，這是一個以大模型為核心的通用計算系統，能利用現有的 All-Tools 功能，結合記憶和自我回報機制，模拟人類的計劃-執行-檢查-行動（Plan-Do-Check-Act, PDCA）循環，實作自我優化。這一設想引起會議觀衆的熱烈關注，也展示了中國大模型團隊的前瞻性與思考力。最後，團隊分享了自2019年起研發的 GLM-zero 技術，該技術探索了類似人類在睡眠中仍進行學習的無意識學習機制，涉及自我引導、反思和批評，旨在深化對意識、知識和學習行為的了解，也代表了 AGI 的重要一步。值得關注的是，在今天，能調用以上技術 API 的智譜大模型 MaaS 開放平台（bigmodel.cn）就大幅降價，其中最具成本效益的基座大模型 GLM-3-Turbo 模型的調用價格下調80%，從之前的1元可以購買 20萬 tokens變為1元可以購買 100 萬tokens，新注冊使用者獲贈還從 500 萬tokens提升至 2500 萬 tokens（包含 2000 萬入門級額度和 500 萬企業級額度）。

寫在最後今天，Sam Altman 預告 OpenAI 将在 5 月 13 日釋出新産品，既不是萬衆期待的 GPT-5，也不是前段時間廣為流傳的 ChatGPT 搜尋引擎産品。在海内外大模型仍在追趕 GPT-4 之際，OpenAI 又要開拓新的版圖。“追趕 OpenAI，成為 OpenAI，超越 OpenAI。”這似乎已成為國産大模型的魔咒。但在過去一年，智譜 GLM-4、阿裡 Qwen-Max 與百度文心一言4.0等國産大模型在各類評測榜單表現亮眼，跻身于國際舞台。此次 ICLR 大會現場的 LLM 成果就已表明，2024 年，“追趕 OpenAI”不再是中國大模型公司的核心，“超越 OpenAI”與商業化落地才是國内團隊的目标。對比 2012 到 2022 的深度學習十年，我們不難發現，大模型時代的 AI 發展周期在不斷加快。在加速的技術周期中，技術從研發到商業的距離也大幅縮減，對創新者也不斷提出了新的要求。“沒有第二個 OpenAI”，但有“第一個 ChatGLM”、第一個文心一言、第一個通義千問……也許從前國内行業觀察者信心不足，但 ICLR 2024 結束後，國産大模型的力量走出國門，能與國際知名的 LLM 公司較量——這一事實，會更加振奮國内 LLM 的信心。

本文作者 anna042023 将持續關注AI大模型領域的人事、企業、商業應用以及行業發展趨勢，歡迎添加交流，互通有無。

未經「AI科技評論」授權，嚴禁以任何方式在網頁、論壇、社群進行轉載！

公衆号轉載請先在「AI科技評論」背景留言取得授權，轉載時需标注來源并插入本公衆号名片。

在 ICLR 2024，看見中國大模型的力量

未經「AI科技評論」授權，嚴禁以任何方式在網頁、論壇、社群進行轉載！

公衆号轉載請先在「AI科技評論」背景留言取得授權，轉載時需标注來源并插入本公衆号名片。

繼續閱讀

前後态度判若兩人：馬斯克表态稱反對美國對中國電動汽車加收關稅

耶倫喊話G7等國：要一同對中國主導的産業政策豎起一道“反對之牆”

日本人拆解中國新能源車之後：看不懂，但是大受震撼

高棉2646億元大項目，中國、日本誰能搶到？

向佐讓李勝利離開中國香港特區政府釋出澄清說明

光刻機技術逆襲！中國将實作從“小弟”到“大佬”的驚天一躍！

北向資金狂買927億元，高盛唱多中國資産，哪類股票上漲空間最大？

英偉達下調供應中國市場的H20 AI晶片價

泰國隊主帥：接下來與中國和新加坡的比賽，球隊目标全取6分

中國汽車出口被“圍追堵截”？

主持人塗磊“中國首席情感導師”認證被撤？本人回應

央視主持人泰國墜樓身亡，官方發訃告遺體運回中國，最後露面曝光

美國對華出口電動車加征100%關稅！中國在乎嗎？

成功申辦2025年U20男足亞洲杯，中國足球外事“破冰”初見成效

支援618大促：NVIDIA特批更多GPU供貨中國市場！

Jeep老闆：對中國電動車征收關稅是“重大陷阱”！

在 ICLR 2024，看見中國大模型的力量

未經「AI科技評論」授權，嚴禁以任何方式在網頁、論壇、社群進行轉載！ 公衆号轉載請先在「AI科技評論」背景留言取得授權，轉載時需标注來源并插入本公衆号名片。

繼續閱讀

未經「AI科技評論」授權，嚴禁以任何方式在網頁、論壇、社群進行轉載！

公衆号轉載請先在「AI科技評論」背景留言取得授權，轉載時需标注來源并插入本公衆号名片。