天天看點

在 ICLR 2024,看見中國大模型的力量

作者:第一賽馬網
在 ICLR 2024,看見中國大模型的力量

國産大模型不再追趕 OpenAI。

作者 | 賴文昕

編輯 | 陳彩娴

近日(5.7-5.11),第十二屆國際學習表征會議(ICLR)在奧地利維也納的展覽會議中心召開。ICLR 2024 的論文終審工作自 1 月份啟動以來,共收到了7262篇送出論文,相較于上一年度的 4966 篇,增幅達到了 46.1%,接近翻了一番。在嚴格的評審過程中,大會最終接受了 2260 篇論文,整體接收率維持在 31%,與去年的31.8%基本持平,其中 Spotlights 和 Oral 兩種類型的論文展示分别有 367 篇(占5%)和 86 篇(占1.2%)論文獲選。除了論文數量激增外,大模型(LLM)也成為今年 ICLR 的熱門關鍵詞之一。以 LLM 為研究主題的投稿論文數量暴漲,研究團隊來自全球各地,涵蓋多個細分方向,ICLR 也由此吸引了美國微軟、谷歌、OpenAI、Anthropic、Meta,以及中國智譜、百度、面壁等多個科技團隊的參會。可以說,今年人工智能領域首個舉辦的 ICLR 不僅是一個傳統的學術會議,也是全球工業界大模型團隊正面較量的縮影。ICLR 2024 的截稿日期是2023 年 9 月 28 日,但在過去的大半年,LLM 在 AI 領域依然狂飙不止。更值得關注的是,從今年的 ICLR 論文成果與演講來看,經過一年的研究,各家在大模型上的研究已經不隻停留在“研究 OpenAI”、“追趕 OpenAI” 的階段。尤其是中國的研究團隊,他們已經不再單純模仿 OpenAI。

相反,LLM 的研究團隊都不約而同地提出了自己對 AGI 的思考。

1

LLM 成為絕對主角ICLR 是由深度學習領軍人物、圖靈獎三巨頭之二的 Yoshua Bengio 和 Yann LeCun 牽頭發起的,首屆會議于 2013 年在美國亞利桑那州的斯科茨代爾舉辦。盡管與 NeurIPS(神經資訊處理系統大會)和 ICML(國際機器學習大會)相比,ICLR 的年資尚淺,但其學術影響力和認可度正日益提升,現已與前兩者一起被公認為機器學習領域的三大頂級會議,參會人數與投稿數量也逐年顯著增加。

在 ICLR 2024,看見中國大模型的力量

ICLR曆年資料:https://papercopilot.com/statistics/iclr-statistics/會議召開的前一天,ICLR 2024 的官方網站公布了本年度的獲獎論文名單,特别表彰了 5 篇傑出論文和 11 篇榮譽提名論文。5 篇傑出論文主要圍繞圖像擴散模型、模拟人機互動、預訓練和微調、離散蛋白質序列資料的模組化與 Vision Transformers 展開研究,其中預訓練與微調就是大模型相關。根據 ICLR 公布的接收論文資料,被提及次數最多的前十個關鍵詞分别是:大語言模型(LLM)、強化學習、圖神經網絡、擴散模型、深度學習、表征學習、生成模型、聯邦學習、語言模型與可解釋性。在這些關鍵詞中,LLM 排名第一,被 318 篇研究提及,與位列第二名的強化學習(201篇)相比,整整多了 1/3,毫無疑問成為 ICLR 的絕對主角。

在 ICLR 2024,看見中國大模型的力量

這 301 篇以 LLM 為研究主題的工作所涵蓋的具體方向也十分廣泛,如關于智能體(Agent)的研究、與強化學習結合、與其他生成模型結合、與三維重建結合、在 NLP 領域的應用、在多模态領域的應用、碳足迹模組化等等。在被 ICLR 接收的 LLM 相關論文中,有不少過去幾個月令人驚豔的新科研成果或産品,比如由深度賦智等中國團隊開發、開源的多 Agent 開發架構 MetaGPT。MetaGPT 模拟了一個完整的虛拟軟體團隊,包括多個角色如産品經理和工程師,采用标準操作流程,旨在自動化程式設計任務,解決大模型應用問題,能輸出設計、架構和代碼。這篇論文在 ICLR 2024 中得到了 8.0 的高分。普林斯頓大學和芝加哥大學聯合釋出的 LLM 評估架構 SWE-bench 也被選中為 Oral 論文。這是一個由來自 GitHub 中真實的 2294 個軟體工程問題以及 12 個流行的 Python 存儲庫中的拉取請求所組成的評估架構,通過給定代碼庫以及要解決的問題的描述,測評 LLM 編輯代碼庫解決問題的能力。解決 SWE-bench 中的問題通常需要同時了解和協調多個函數甚至是檔案之間的更改,調用模型與執行環境互動,處理極長的上下文,并執行遠超出傳統代碼生成任務的複雜推理。可以說,這個測評标準的出現,讓市面上大模型的性能比拼有了更直覺的資料。此外,還有MIT、港中文及英偉達提出的超長上下文 LLM 高效微調方法 LongLoRA 。這是一種十分有效的微調方法,通過稀疏的局部注意力進行微調, LongLoRA 實作了上下文擴充,節省了計算量,并具有與普通注意力微調相似的性能。ICLR 2024 還出現了 LLM 與碳足迹的新穎結合。來自印第安納大學與傑克遜州立大學的研究團隊發現,能在訓練前預測新神經網絡的碳足迹的工具 mlco2 存在局限性,如無法估算密集或專家混合(MoE)LLM 的碳足迹,忽視關鍵架構參數,僅關注GPU,且無法對具體碳足迹進行模組化。為解決這些局限,他們開發了一種專為密集和 MoE LLM 設計的、端到端碳足迹預測模型,顯著提高了 LLM 碳足迹估算的準确性。關于 LLM 與三維重建的結合,澳洲國立大學與 Adobe 研究中心提出的 LRM,能夠在短短5秒内從單個輸入圖像預測對象的3D模型。與以往在小規模資料集上訓練的方法不同,LRM 采用高度可擴充的、基于 Transformer 的架構,擁有5億個可學習參數,并可以直接從資料集預測神經輻射場(NeRF)。研究團隊在大約包含100萬個對象的海量多視圖資料上以端到端的方式訓練了 LRM,包括來自 Objaverse 的合成渲染和來自 MVImgNet 的真實截圖。無論是 MetaGPT 還是 LongLoRA,國内大模型的研發人員均參與其中,放眼望去,入選的華人作者更是比比皆是。而來到 ICLR 2024 的大會現場,中國的大模型初創團隊如智譜 AI,網際網路科技大廠如位元組、百度、美團、華為、螞蟻的身影更是遍布在展會各處,在 32 個參會企業中占領了其中的 6 席。Keynote 演講中,智譜等來自中國的大模型公司也作了深入分享,吸引了來自國内外 LLM 參會者的廣泛關注。

在 ICLR 2024,看見中國大模型的力量

不難發現,中國團隊已成為大模型研究熱潮中不可忽視的主力軍。

2

從 ICLR 看見“中國 AGI”2023 年 ChatGPT 引爆大模型熱潮後,AGI 就成為了備受關注的焦點議題。如何通往 AGI,成為了無論是技術驅動、産品驅動還是商業驅動團隊都要争相回答的問題。從 GPT-3 到 GPT-3.5,從 ChatGPT 到 GPT-4 與 GPT-4V,OpenAI 的下一步“GPT-X”一度成為行業最熱的話題猜測,并曾被狂熱地視為“LLM 的下一步”。然而,随着越來越多的研究者加入,中國的大模型研究者開始批判思考“OpenAI 模式”與“GPT 路線”。據 AI 科技評論與多個中國大模型團隊的交流,他們越來越相信,如果一味追趕 OpenAI,那麼“我們将最多成為 OpenAI,卻無法超越 OpenAI”。比如,有大模型團隊指出,大模型不具備“智能湧現”的能力,一味追求通過擴大模型規模來實作模型智能的路線風險極高,大模型要通過具體的産品與服務來實作價值。2023 年斯坦福團隊獲選 NeurIPS 最佳論文的工作“Are Emergent Capabilities of LLMs a Mirage?”就指出,大模型的智能湧現能力也許是錯覺。OpenAI 的單向路線以及過度依賴長序列的方法,也引起行業的反思。以長文本為例,如果說大模型的目标是實作 AGI,那麼從 AGI 的終極目标倒推,AGI 所應包含的能力并不是 OpenAI 大模型的現有架構所能很好解決的。類比人類的能力,人會通過多次做一件事、越做越熟練,且掌握一項技能(如騎自行車)後就不會遺忘,但目前的大模型并不具備類似人的這種“經驗性記憶”,長文本與長序列目前也沒有顯示出表達這種能力的潛力。相比模仿 OpenAI,中國的大模型創業者開始趨于從 AGI 的第一性原理出發,思考一條獨特的、同時符合中國市場與服務的技術路線。即使是被外界視為從模型到産品全面對标 OpenAI 的智譜 AI,在如何實作 AGI 的路徑上也有與 OpenAI 不同的思考。這一差異在智譜團隊于 ICLR 2024 大會現場發表的主旨演講内容中可見一斑。作為唯一受邀作主旨演講的中國 LLM 團隊,智譜在 ICLR 圍繞“ChatGLM 的 AGI 之路”分享了團隊的獨特思考。盡管模型矩陣與 OpenAI 相似,但智譜的 AGI 核心與路徑卻大大差別于 OpenAI。

在 ICLR 2024,看見中國大模型的力量

從2019 年開始,智譜的大模型研究以“認知”(Cognition)為核心,借鑒人類思維,将模型的能力研發分為負責快速直覺的“系統 1”與負責慢速邏輯的“系統 2”。這借鑒了 Yoshua Bengio 最早提出的“System 1”與“System 2”理論。智譜的思考是:系統 1 以 LLM 為核心,能迅速響應簡單問題;系統 2 則采用知識圖譜建構,能處理複雜的推理任務,建立短期和長期記憶,還具備無意識學習和自我管理等功能。這是為了讓計算機程式能像人類運用左右腦一樣,既能快速回答簡單問題,又能通過推理回答複雜問題。此外,智譜的 GLM 大模型采取雙向自回歸路線,而 OpenAI 的 GPT 系列采取單向自回歸路線。雙向自回歸的特點是:在生成 token 時,GLM 可以隻關注單側的上下文;在采用随機化的 token 控制政策處理已知 token 時,GLM 又能同時考慮兩側的上下文,實作對單向和雙向注意力機制的雙重管理。這相當于将 BERT 的填空功能與 GPT 的生成能力相結合,通過自回歸的方式做“完形填空”。是以,在某些任務,GLM-130B 的性能能超過 GPT-3。此外,智譜的大模型技術團隊還認為,人類大腦具有多模态的感覺與了解能力,以及短期和長期記憶能力以及推理能力的組合。是以,視覺語言模型(VLM)也是通往 AGI 不可缺少的一環。CogVLM 就此誕生。這是一個開源的圖像了解模型,旨在彌合 LLM 與視覺編碼器之間的差距。通過将文本資訊與視覺編碼相結合,并對該組合子產品進行訓練,CogVLM 實作了文本與圖像間精确的映射,極大地提升了模型對視覺内容的了解和生成能力,也被用于 Stable Diffufion 3 的圖像标注。技術團隊還研發了一個創新級聯架構 CogView3。作為第一個在文本到圖像生成領域實作級聯擴散的模型, CogView3 在人類評估中比目前最先進的開源文本到圖像擴散模型 SDXL 性能高出77.0%,推理時間卻僅為其大約一半的長度,其蒸餾變體在性能相當的情況下,甚至隻需 SDXL 的1/10的推理時間。随着 CogVLM 的加入,GLM-4V 也投入了使用,無論是面對包含世界常識的圖檔還是需要了解推理的圖表,GLM-4V 都能提供言之有物的回複。為了讓 GLM-4V 能自動産生不同的功能,如增加長文本的模式以儲存長期記憶,或從回報中不斷自我學習完善,GLM 大模型技術團隊開發了能為 LLM 啟用通用代理(Agent)能力的 AgentTuning。此前,大模型訓練是通過輸入資料讓其不斷學習和微調,但這個方法的缺點是它無法推廣至其他更廣泛的情況。而 AgentTuning 隻需用少量案例和有限的标記資料,就可以将訓練好的模型推廣到不同的模型之中。與此同時,大模型的“湧現能力”同樣是智譜技術團隊一直在探索的問題。在 LLM 烈火烹油的幾年間,Scaling Law 被封為鐵律,不少人認為模型大小與訓練資料量的增加才能讓模型“智能湧現”。OpenAI 科學家 Jason Wei 于2022年在機器學習期刊 TMLR 上發表了論文,提出 LLM 湧現能力中的某些能力僅在大模型中顯現,小模型并不具備,是以大模型的新興能力無法僅憑小模型的性能來預測,而增加模型的規模後,新興能力自然會呈線性提高。而智譜在不久前釋出的研究卻提出了一個新的了解:損失(Loss)才是湧現的關鍵,而非模型參數。将訓練損失标為 X 軸、模型性能标為 Y 軸後,研究人員發現,如果訓練損失達到了2.2的門檻值,模型性能就會攀升。由此可見,模型的“湧現能力”除了與模型大小、訓練資料量緊密關聯,也可能源自于訓練損失。

在 ICLR 2024,看見中國大模型的力量

論文位址:https://arxiv.org/pdf/2403.15796.pdf

可以預見,GLM 系列将迎來新更新,GLM-4.5 及其後續版本将融合超級智能(SuperIntelligence)和超級對齊(SuperAlignment)技術,在增強模型的安全性的基礎上建構全面的多模态模型。而這些成果的疊代,都是源于一個團隊的創新思考。在 ICLR 大會演講中,智譜提出了自己的 AGI 思考:首先是在文本這一最關鍵的智能基礎上混合圖像、視訊、音頻等多種模态,将 LLM 應用于聊天、OCR 識别等場景中;接着開發虛拟的 Agent 來協助使用者完成多種任務,再之後是開發能與現實世界互動并得到其回報的 Agent,接下來甚至可能是機器人,通過機器人和現實世界互動後得到真實回報、以進一步實作 AGI……智譜團隊還提出了一個有意思的概念:GLM-OS。在他們的設想中,這是一個以大模型為核心的通用計算系統,能利用現有的 All-Tools 功能,結合記憶和自我回報機制,模拟人類的計劃-執行-檢查-行動(Plan-Do-Check-Act, PDCA)循環,實作自我優化。這一設想引起會議觀衆的熱烈關注,也展示了中國大模型團隊的前瞻性與思考力。最後,團隊分享了自2019年起研發的 GLM-zero 技術,該技術探索了類似人類在睡眠中仍進行學習的無意識學習機制,涉及自我引導、反思和批評,旨在深化對意識、知識和學習行為的了解,也代表了 AGI 的重要一步。值得關注的是,在今天,能調用以上技術 API 的智譜大模型 MaaS 開放平台(bigmodel.cn)就大幅降價,其中最具成本效益的基座大模型 GLM-3-Turbo 模型的調用價格下調80%,從之前的1元可以購買 20萬 tokens變為1元可以購買 100 萬tokens,新注冊使用者獲贈還從 500 萬tokens提升至 2500 萬 tokens(包含 2000 萬入門級額度和 500 萬企業級額度)。

在 ICLR 2024,看見中國大模型的力量

3

寫在最後今天,Sam Altman 預告 OpenAI 将在 5 月 13 日釋出新産品,既不是萬衆期待的 GPT-5,也不是前段時間廣為流傳的 ChatGPT 搜尋引擎産品。在海内外大模型仍在追趕 GPT-4 之際,OpenAI 又要開拓新的版圖。“追趕 OpenAI,成為 OpenAI,超越 OpenAI。”這似乎已成為國産大模型的魔咒。但在過去一年,智譜 GLM-4、阿裡 Qwen-Max 與百度文心一言4.0等國産大模型在各類評測榜單表現亮眼,跻身于國際舞台。此次 ICLR 大會現場的 LLM 成果就已表明,2024 年,“追趕 OpenAI”不再是中國大模型公司的核心,“超越 OpenAI”與商業化落地才是國内團隊的目标。對比 2012 到 2022 的深度學習十年,我們不難發現,大模型時代的 AI 發展周期在不斷加快。在加速的技術周期中,技術從研發到商業的距離也大幅縮減,對創新者也不斷提出了新的要求。“沒有第二個 OpenAI”,但有“第一個 ChatGLM”、第一個文心一言、第一個通義千問……也許從前國内行業觀察者信心不足,但 ICLR 2024 結束後,國産大模型的力量走出國門,能與國際知名的 LLM 公司較量——這一事實,會更加振奮國内 LLM 的信心。

本文作者 anna042023 将持續關注AI大模型領域的人事、企業、商業應用以及行業發展趨勢,歡迎添加交流,互通有無。

未經「AI科技評論」授權,嚴禁以任何方式在網頁、論壇、社群進行轉載!

公衆号轉載請先在「AI科技評論」背景留言取得授權,轉載時需标注來源并插入本公衆号名片。

繼續閱讀