天天看點

中國大模型蓄勢聚力:月之暗面Kimi更新再突破、階躍星辰Step釋出

作者:獅門
中國大模型蓄勢聚力:月之暗面Kimi更新再突破、階躍星辰Step釋出

資料源:國投證券;作者:趙陽、夏瀛韬

1.Kimi:無損長文本處理能力全球領先

Kimi長文本輸入量提升10倍,目前全球領先。AI大模型初創企業月之暗面(MoonshotAI)創立于2023年3月,主力産品Kimi智能助手在2023年10月初次亮相,憑借約20萬漢字的無損上下文能力,幫助使用者解鎖了很多新的使用場景,包括專業學術論文的翻譯和了解、輔助分析法律問題、一次性整理幾十張發票、快速了解API開發文檔等,獲得了良好的使用者口碑和使用者量的快速增長。今年3月18日,公司宣布Kimi智能助手在長上下文視窗技術上再次取得突破,無損上下文長度提升了一個數量級到200萬字。根據機器之心資料,尚未上線的 GPT-4.5 Turbo上下文視窗指定為 25.6萬個 token,Kimi此次更新後長文本能力是其10倍,是目前全球市場上能夠産品化使用的大模型服務中所能支援的最長上下文輸入長度。

中國大模型蓄勢聚力:月之暗面Kimi更新再突破、階躍星辰Step釋出

更長上下文意味着更大“記憶體”,提高海量檔案處理效率。從技術視角看,參數量決定了大模型支援多複雜的“計算”,而能夠接收多少文本輸入(即長文本技術)則決定了大模型有多大的“記憶體”,兩者共同決定模型的應用效果。支援更長的上下文意味着大模型擁有更大的“記憶體”,進而使得大模型的應用更加深入和廣泛:比如通過多篇财報進行市場分析、處理超長的法務合同、快速梳理多篇文章或多個網頁的關鍵資訊、基于長篇小說設定進行角色扮演等。同時,Kimi Chat通過創新的網絡結構和工程優化,在千億參數下實作了無損的長程注意力機制,不依賴于滑動視窗、降采樣、小模型等對性能損害較大的“捷徑”方案。

中國大模型蓄勢聚力:月之暗面Kimi更新再突破、階躍星辰Step釋出
中國大模型蓄勢聚力:月之暗面Kimi更新再突破、階躍星辰Step釋出

智能檢索并分析總結與長文本處理能力息息相關:Kimi可以根據使用者的問題,主動去網際網路上搜尋、分析和總結最相關的多個頁面,搜尋得到的多篇資料,會作為上下文的一部分交給模型去推理,生成更直接、更準确的答案。正是因為Kimi大模型支援的上下文視窗足夠長,視窗内的資訊損失足夠低,Kimi智能助手才能輸出高品質的結果。例如,使用者可以讓 Kimi主動去搜尋和對比兩家同領域上市公司的最新财報資料,直接生成對比表格,節省大量的資料查找時間。

中國大模型蓄勢聚力:月之暗面Kimi更新再突破、階躍星辰Step釋出

多輪互動和超長指令遵循能力突出:與大模型的無損上下文能力息息相關的名額是指令遵循(Instruction Following)能力。指令遵循能力主要展現在兩個方面:1)模型在多輪對話中是否能夠始終遵循使用者的指令,了解使用者的需求;2)模型是否能夠遵循複雜指令,有時候複雜指令可能長達幾千、上萬字。從産品推出以來的使用者回報來看,Kimi智能助手的多輪互動和超長指令遵循能力,也是産品的一項核心優勢。

Kimi流量增加趨勢遠超預期,已采取擴容等緊急措施。根據Similarweb資料,Kimi網頁版日活使用者數目前已連續數日超 20萬,峰值日活達34.6萬,周活資料環比增長45%持續創新高。月之暗面釋出情況說明,從2024年3月20日9:30開始觀測到Kimi的系統流量持續異常增高,流量增加的趨勢遠超公司對資源的預期規劃。這導緻了從 3月 20日 10:00開始,有較多的SaaS客戶持續的體驗到429:engine is overloaded的異常問題,對此公司深表抱歉,已經有多項應急措施正在實施,包括不限于:從觀測到流量異常增高後,已經進行了 5次擴容工作。推理資源會持續配合流量進行擴容,以盡量承載持續增長的使用者量;設計了一套更有效的SaaS流量優先級政策,以保障付費使用者的調用穩定,預計3月25日之前完成并上線。

中國大模型蓄勢聚力:月之暗面Kimi更新再突破、階躍星辰Step釋出

頂尖算法工程人才彙聚,創始團隊成員參與過多個大模型研發。月之暗面團隊創始人楊植麟,大學畢業于清華大學計算機科學與技術系,博士就讀于全美自然語言處理排名第一的卡内基梅隆大學語言技術研究所(LTI),楊植麟本人學術引用量自 2019年起已超 2萬餘次。在算法和工程領域,月之暗面囊括了自然語言處理、計算機視覺、強化學習、基礎設施等方面的新生代人才,創始團隊的核心成員參與了Google Gemini、Google Bard、盤古NLP、悟道等多個大模型的研發,多項核心技術被Google PaLM、Meta LLaMa、Stable Diffusion等主流産品采用。

2.階躍星辰:釋出萬億參數MoE大模型預覽版

階躍星辰Step-1V多模了解能力突出,并蓄力釋出萬億參數模型。通用大模型創業公司階躍星辰成立于2023年4月。2024年3月23日,公司在上海舉行的2024全球開發者先鋒大會期間正式對外亮相,階躍星辰創始人、CEO姜大昕博士在大會開幕式上對外釋出了Step系列通用大模型。Step-1V千億參數多模态大模型的多模了解能力突出,可以精準描述和了解圖像中的文字、資料、圖表等資訊,并根據圖像資訊實作内容創作、邏輯推理、資料分析、視訊了解等多項任務。該模型在中國權威的大型模型評估平台“司南”( OpenCompass)多模态模型評測榜單中位列第一,性能比肩 GPT-4V。

此次大會上還釋出了 Step-2萬億參數 MoE語言大模型預覽版,該模型采用MoE架構,聚焦深度智能的探索,并提供API接口給部分合作夥伴試用。訓練萬億參數模型展現了階躍星辰的核心技術能力和探索通用人工智能的決心。

中國大模型蓄勢聚力:月之暗面Kimi更新再突破、階躍星辰Step釋出

創始團隊堅定投入攀登 Scaling law,在算力/資料/算法/系統四大要素布局。創始人和 CEO是前微軟全球副總裁、微軟亞洲網際網路工程院首席科學家姜大昕博士,核心創始團隊包括系統負責人朱亦博博士和資料負責人焦斌星博士。姜大昕是自然語言處理領域的全球知名專家,在機器學習、資料挖掘、自然語言處理和生物資訊學等領域擁有豐富的研究及工程經驗。朱亦博擁有多次單叢集萬卡以上的系統建設與管理實踐經驗。焦斌星此前擔任微軟必應引擎核心搜尋團隊負責人,負責利用資料挖掘和NLP算法優化索引和搜尋品質。

階躍星辰在大模型技術路徑上堅定投入攀登ScalingLaw。根據階躍星辰資料,等效A800萬卡單一叢集,高效穩定的訓練,十萬億tokens高品質的資料,加上駕馭新穎的MoE架構,任何一環出現短闆,Scaling law就攀登不上去。是以公司自成立起,在算力、資料、算法和系統這四大要素上綜合布局:

1)算力:通過自建機房+租用算力,積極進行算力儲備。前瞻布局算力資源,階躍星辰出資2億元人民币投資上海智能算力科技有限公司并持股 10%。(該公司大股東為上海儀電集團,持股44%,雲賽智聯持股11%。)

2)系統:實踐過單叢集萬卡以上的系統建設與管理。訓練千億模型的 MFU(有效算力輸出)達57%。

3)資料:資料團隊核心骨幹來自必應搜尋引擎,曾支援全球 100多種語言,為 200多個國家和地區提供服務。對全球網際網路高品質語料的分布有深入了解。并建立起強大的資料處理和知識圖譜流水線。

4)算法:團隊不僅能駕馭各種架構,比如萬億參數的 MoE架構,并且對大模型的認知以及發展路線有深刻洞察。

中國大模型蓄勢聚力:月之暗面Kimi更新再突破、階躍星辰Step釋出

多模了解和生成的統一是通往 AGI的必經之路。階躍星辰認為,模型的演化必然會經曆“單模->多模->世界模型”三個階段。早期階段是語言、視覺和聲音各個模态獨立發展,各個模型學習如何更好表征各個模态。目前階段是多種模态走向融合,無論是語言、視覺還是聲音,現在都可以映射到同一個空間加以表征。盡管目前階段多種模态開始走向融合,但是仍然存在一個問題——了解模型和生成模型是分開發展的。其造成的結果就是了解模型的了解能力強而生成能力弱(比如 GPT-4V),或者生成模型的生成能力強但了解能力弱(比如 Sora)。

了解和生成必須統一在一個模型裡面,即多模了解和生成的統一是通向AGI的必經之路。在未來階段,有了了解和生成的統一,就可以進一步和具身智能結合起來,形成一個世界模型。

再進一步,在世界模型的基礎上加入複雜任務的規劃能力和抽象概念的歸納能力,就真正演化到了AGI的階段。

中國大模型蓄勢聚力:月之暗面Kimi更新再突破、階躍星辰Step釋出

基于自研大模型底座,階躍推出了兩款面向 C端使用者的 AI應用産品:1)躍問(StepChat)是基于公司千億級參數模型所研發的免費 AI聊天機器人,定位為個人效率助手,主要功能包括AI對話聊天、圖檔内容了解、文檔資訊總結、網頁内容分析、聯網線上搜尋等。2)冒泡鴨是基于公司千億級參數模型研發的免費 AI開放世界平台,它提供了覆寫拟人、工具、内容、遊戲、娛樂等多個領域的海量智能體,設定了十億種劇情和角色,使用者可與其進行多場景的角色扮演體驗。冒泡鴨 AI依靠超長的上下文記憶能力和實時聯網搜尋的能力,能夠深度了解使用者意圖,并提供即時、準确、個性化的回複和選擇。

中國大模型蓄勢聚力:月之暗面Kimi更新再突破、階躍星辰Step釋出

繼續閱讀