天天看點

零一萬物釋出千億參數模型Yi-Large,李開複呼籲關注TC-PMF,拒絕Ofo式燒錢打法

作者:中經TMT

5月13日,在零一萬物成立一周年之際,零一萬物 CEO 李開複博士攜帶千億參數 Yi-Large 閉源模型正式亮相,正式進軍全球 SOTA 頂級大模型之首,在斯坦福最新的 AlpacaEval 2.0 達到全球大模型 Win Rate 第一。除此之外,零一萬物将早先釋出的 Yi-34B、Yi-9B/6B 中小尺寸開源模型版本更新為 Yi-1.5 系列,每個版本達到同尺寸中 SOTA 性能最佳。

在國際領先的底座模型之上,零一萬物本月同步官宣了從應用到生态的産品線:2C 生産力應用 “萬知” 正式提供服務、賦能 2B 生态的 “API 開放平台” 今日全球上線。借一周年釋出會,零一萬物公開了開源閉源雙軌大模型的戰略布局,低調許久的創始人李開複也首度現身說法,親自拆解發展藍圖背後的戰略思路。

在中國大模型進入第二年之際,李開複博士提出,國内大模型賽道的競跑從狂奔到長跑,終局發展将取決于各個選手如何有效達到 “TC-PMF”(Product-Market-Technology-Cost Fit,技術成本 X 産品市場契合度)。大模型從訓練到服務都很昂貴,算力緊缺是賽道的集體挑戰,行業應當共同避免陷入不理性的 ofo 式流血燒錢打法,讓大模型能夠用健康良性的 ROI 蓄能長跑,奔赴屬于中國的 AI 2.0 變革。

零一萬物以全球為目标市場,基于全球領先的 Yi 系列模型做出符合 TC-PMF 的B端和C端優質應用,進而與行業攜手推進 AI 2.0 生态。中國市場的AI普惠必然到來,零一萬物将結合國際經驗,打造驚豔的國内 AI-First 應用生态,實作“讓通用人工智能普惠各地,人人受益”的公司願景。

Yi-Large 進擊全球SOTA大模型極品,Win Rate全球第一

去年11月,零一萬物所釋出的 Yi-34B 以開源社群“甜點級”尺寸就在權威榜單中超越了 Llama2-70B、Falcon-180B等大幾倍的模型,成為當時世界範圍内開源最強基礎模型之一,引發國際開發者社群的熱烈回響和采用,在國際開源圈破圈建立了全球化的技術品牌信任感。

半年後,零一萬物正式釋出千億參數規模的 Yi-Large,在第三方權威評測中,零一萬物 Yi 模型在全球頭部大模型的中英文雙語 PK 上表現出色。最新出爐的斯坦福評測機構 AlpacaEval 2.0 經官方認證的模型排行榜上,Yi-Large 模型的英語能力主要名額 LC Win Rate(控制回複的長度) 排到了世界第二,僅次于 GPT-4 Turbo,Win Rate 更排到了世界第一,此前國内模型中僅有 Yi 和 Qwen 曾經登上此榜單的前 20。

零一萬物釋出千億參數模型Yi-Large,李開複呼籲關注TC-PMF,拒絕Ofo式燒錢打法

斯坦福 AlpacaEval 2.0 Verified 認證模型類别,英語能力評測(2024年5月12日)

在中文能力方面,SuperCLUE 更新的四月基準表現中,Yi-Large 也位列國産大模型之首,Yi-Large 的綜合中英雙語能力皆展現了卓越的性能,可謂正式晉升全球大模型的“極品”。

在更全面的大模型綜合能力評測中,Yi-Large 多數名額超越 GPT4、Claude3、Google Gemini 1.5 等同級模型,達到首位。在通用能力、代碼生成、數學推理、指令遵循方面都取得了優于全球領跑者的成績,穩穩跻身世界範圍内的第一梯隊。随着各家大模型能力進入到力求對标GPT4的新階段,大模型評測的重點也開始由簡單的通用能力轉向數學、代碼等複雜推理能力。在針對代碼生成能力的 HumanEval、針對數學推理能力的 GSM-8K和 MATH、以及針對領域專家能力的GPQA等評測集上,Yi-Large也取得了具有絕對優勢的成績。

零一萬物釋出千億參數模型Yi-Large,李開複呼籲關注TC-PMF,拒絕Ofo式燒錢打法

國際中英文評測資料集(2024年5月12日)

值得注意的是,上述評測均是在零樣本(0-shot)或少樣本(4-shot/5-shot/8-shot)的前提下進行。在零樣本或少樣本的情況下,模型必須依賴于其在大量資料上訓練時獲得的知識和推理能力,而不是簡單地記憶訓練資料。這最大程度上避免了刷分的可能性,能更加客觀真實地考驗模型的深層次了解和推理能力。

此外,從行業落地的角度來看,了解人類指令、對齊人類偏好已經成為大模型不可或缺的能力,指令遵循(Instruction Following)相關評測也越發受到全球大模型企業重視。斯坦福開源評測項目 AlpacaEval 和伯克利 LM-SYS 推出的 MT-bench 是兩組英文指令遵循評測集,AlignBench 則是由清華大學的團隊推出的中文對齊評測基準。在中外權威指令遵循評測集中,Yi-Large 的表現均優于國際前五大模型。

釋出會上,李開複博士還宣布,零一萬物已啟動下一代 Yi-XLarge MoE 模型訓練,将沖擊 GPT-5 的性能與創新性。從 MMLU、GPQA、HumanEval、MATH 等權威評測集中,仍在初期訓練中的 Yi-XLarge MoE 已經與 Claude-3-Opus、GPT4-0409 等國際廠商的最新旗艦模型互有勝負,訓練完成後的性能令人期待。

零一萬物釋出千億參數模型Yi-Large,李開複呼籲關注TC-PMF,拒絕Ofo式燒錢打法

Yi-XLarge 初期訓練中評測(2024年5月12日)

Yi-1.5 開源全面更新,開源閉源雙軌完善生态政策

此次釋出會上,零一萬物Yi系列開源模型也迎來全面更新,Yi-1.5 分為 34B、9B、6B 三個版本,且提供了 Yi-1.5-Chat 微調模型可供開發者選擇。從評測資料來看,Yi-1.5 系列延續了 Yi 系列開源模型的出色表現,數學邏輯、代碼能力全面增強的同時,語言能力方面也保持了原先的高水準。開源位址:Hugginf Face https://huggingface.co/01-ai 及魔搭社群 https://www.modelscope.cn/organization/01ai。

經過微調後的 Yi-1.5-6B/9B/34B-Chat 在數學推理、代碼能力、指令遵循等方面更上一層樓。Yi-1.5-6B/9B-Chat 在 GSM-8K 和 MATH 等數學能力評測集、HumanEval 和 MBPP 等代碼能力評測集上的表現遠同參數量級模型,也優于近期釋出的 Llama-3-8B-Instruct;在 MT-Bench、AlignBench、AlpacaEval 上的得分在同參數量級模型中也處于領先位置。

Yi-1.5-34B-Chat 在數學能力同樣保持着大幅領先,代碼能力與超大參數量級的 Mixtral-8x22B-Instruct-v0.1 持平,指令遵循方面更是在 MT-Bench、Alignbench、ArenaHard、AlpacaEval2.0 等多個權威評測集上完全超越了 Mixtral-8x22B-Instruct-v0.1。

去年零一萬物選擇以開源首發 Yi 系列模型,其優異的性能受到國際開發者的高度認可。Yi 開源版本2023年11月上線首月,便占據開源社群近5成熱門模型排行,釋出一個月後 Yi-34B 被 Nvidia 大模型 Playground 收錄,成為國内唯一獲選模型,也建立了 Yi 模型面向國際的科技品牌信任度。

以開源模型建構生态,以閉源模型展開 AI-First 探索,開源閉源雙軌模型政策使得零一萬物建構起了生态體系。開源模型服務于全球的科研院校、學生、開發者、創業者人群,推動百花齊放的應用滋長;API 開放平台提供企業商用,協助企業實踐 AI 2.0 的智能化轉型。同時,零一萬物以優異的閉源模型能力,正在積極探索與世界 500 強企業的大型戰略合作。開源閉源互相助力,確定零一萬物本着 TC-PMF 的方法論,以更穩健的步伐奔向 AGI。

Yi 大模型 API 開放平台全球首發

全球開發者們對開源模型的品牌認可,成為零一萬物 API 服務的強有力支撐。今天,零一萬物宣布面向國内市場一次性釋出了包含 Yi-Large、Yi-Large-Turbo、Yi-Medium、Yi-Medium-200K、Yi-Vision、Yi-Spark 等多款模型 API 接口,保證客戶能夠在不同場景下都能找到最佳性能、最具成本效益的方案,Yi API Platform 英文站同步對全球開發者開放試用申請。

零一萬物釋出千億參數模型Yi-Large,李開複呼籲關注TC-PMF,拒絕Ofo式燒錢打法

Yi 大模型 API 開放平台 (https://platform.lingyiwanwu.com/)

其中,千億參數規模的 Yi-Large API 具備超強文本生成及推理性能,适用于複雜推理、預測,深度内容創作等場景;Yi-Large-Turbo API 則根據性能和推理速度、成本,進行了平衡性高精度調優,适用于全場景、高品質的推理及文本生成等場景。

Yi-Medium API 優勢在于指令遵循能力,适用于正常場景下的聊天、對話、翻譯等場景;如果需要超長内容文檔相關應用,也可以選用 Yi-Medium-200K API,一次性解讀20萬字不在話下;Yi-Vision API 具備高性能圖檔了解、分析能力,可服務基于圖檔的聊天、分析等場景;Yi-Spark API 則聚焦輕量化極速響應,适用于輕量化數學分析、代碼生成、文本聊天等場景。

小胰寶是一個在胰腺惡性良性腫瘤患者群體中廣受關注的公益項目,正在尋求以開源方式營運和共建。通過問答的形式,小胰寶 AI 小助手可以 7x24 小時為患者介紹綜合治療知識。這一助手背後的技術支援正是零一萬物的 Yi 大模型。使用 Yi API 調用 AI 大模型後,小胰寶突破了胰腺惡性良性腫瘤治療資訊壁壘,可将胰腺癌治療路線圖和治療方案精準且系統性地呈現給胰腺惡性良性腫瘤病友。目前,該公益項目已經幫助了 3000 多位胰腺惡性良性腫瘤病友,AI 小助手在病曆和報告解讀的準确率也有顯著提升,已被某國家級權威三甲醫院推薦。

而這也是零一萬物的願景所及之處。能否實作價值落地是一切技術的試金石,模型能力不應當是空中樓閣,大模型公司不僅要放眼 AGI,更重要的是要切實推動模型進入各行各業、進入日常生活,讓每個人都能享受到 AI 2.0所帶來的便利。

萬知 “AI-First 版 Office” 幫你找、讀、寫

近期上線的一站式 AI 工作站“萬知”(wanzhi.com 微信小程式“萬知AI”)則是零一萬物基于世界領先的閉源模型 Yi-Large 所做出的 “模應一體” 2C 生産力應用。依托零一萬物閉源模型的強大能力,萬知在通用問答、多模态、長文本方面都有着不俗表現。更令人驚喜的是,萬知成為業内第一款真正實踐了“AI-First”理念、創新性地将模型能力與應用場景完美融合的 2C 應用産品。

零一萬物釋出千億參數模型Yi-Large,李開複呼籲關注TC-PMF,拒絕Ofo式燒錢打法

以往釋出的大模型 2C 應用大多定位于“聊天機器人”,萬知則針對找、讀、寫三大場景,将通用問答場景作為互動方式,搭配長文檔解讀、PPT 制作等功能,打造PC/手機多端協同、覆寫工作生活全場景的 “AI-First 版 Office”,為使用者提供 AI 2.0 時代颠覆性的辦公體驗,創始人李開複也親自擔任“首席體驗官” 聆聽網友回報。

大模型賽道從狂奔到長跑,需有達到 TC-PMF 的方法論

在移動網際網路的鼎盛時期,PMF(Product-Market Fit,産品市場契合)曾是衆多初創企業追求的核心目标。然而,随着大語言模型成為新的創業焦點,僅僅追求産品與市場契合遠遠不夠。

兩個時代在創業基礎設施層面存在着決定性的差異——在移動網際網路時代,使用者規模增長所帶來的邊際成本很低,但是在大模型時代,模型訓練和推理成本構成了每一個創業公司必須要面臨的增長陷阱。使用者增長需要優質的應用,而優質應用離不開強大的基座模型,強大基座模型的背後往往是高昂的訓練成本,接着還需要考慮随使用者規模增長的推理成本。這一普惠點如何達成、何時到來變得越發難以捉摸。

李開複博士認為,PMF 這一概念已經不能完整定義以大模型為基礎的 AI-First 創業,應當引入 Technology(技術)與 Cost(成本)組成四維概念——TC-PMF。“做 Technology-Cost Product-Market-Fit(TC-PMF),技術成本 X 産品市場契合度,尤其推理成本下降是個‘移動目标’,這比傳統 PMF 難上一百倍。” 李開複博士表示。

随着高性能計算硬體的疊代和模型優化技術的普及,大模型推理成本的大幅度下降已經成為可預見的趨勢所在。在普惠點終将到來的前提下,能夠率先察覺、并達到 TC-PMF 這一普惠點的玩家無疑會占盡先機。要做到這一點,模型、AI Infra、應用這“三位一體” 的優異能力缺一不可。基于此,零一萬物将 “模基共建”、“模應一體”列為公司的頂層核心戰略,在人才密度和協作方式上,也快速打磨出一整套能夠媒合不同專業的精英人才進行跨界共創的組織能力。

模基共建:依托AI Infra能力走出增長陷阱

在國内大模型賽道向前狂奔的第一年,模型結構成為行業焦點,鮮少有人注意到 AI Infra 的重要性。

一個不容忽視的事實在于,中國大模型公司沒有美國大廠的GPU數量,是以必須采取更務實的戰術和戰略。AI Infra(AI Infrastructure 人工智能基礎架構技術)主要涵蓋大模型訓練和部署提供各種底層技術設施,在李開複博士看來,自研 AI Infra 是零一萬物必然要走過的路,零一萬物也自成立起便将 AI Infra 設立為重要方向。

“第一年大模型行業在卷算法,第二年大家在卷算法 + Infra。在國外一線大廠,最高效訓練模型的方式是算法與 Infra 共建,不僅僅關注模型架構,而是從優化底層訓練方法出發。”零一萬物模型訓練負責人黃文灏表示,“這對大模型人才的知識能力提出了全新要求。”

目前來看,模型研究人員隻關注算法而忽視 AI Infra 是國内大模型行業現狀。而零一萬物選擇跟國際一線梯隊齊平,模型團隊和 AI Infra 團隊高度共建,人數比為1比1。“我們要求做模型研究的人一定要‘往下沉澱’,具備工程能力。這也對齊我們倡導的 TC-PMF 的方法論。”黃文灏說。

零一萬物着力于實作計算效率的優化。據了解,零一萬物 Yi-Large 訓練環節的平均 MFU(Model Flops Utilization,模型算力使用率)為 58%,峰值可達 63%,已顯著超越業内平均水準。多方面優化後,零一萬物千億參數模型的訓練成本同比降幅達一倍之多。

今年3月,零一萬物推出了基于全導航圖的新型向量資料庫笛卡爾(Descartes),其搜尋核心已包攬權威榜單 ANN-Benchmarks 6 項資料集評測第一名。同樣于3月,零一萬物成功在 Nvidia GPU 上進行了千億參數模型 Yi-Large 的端到端 FP8 訓練和推理,成為全球率先落地該技術的三個案例之一。

底層技術的突破帶來了優化成本的新可能。接入自研向量資料庫後,零一萬物的C端應用在保證響應速率與準确性的前提下,成本大幅降至了原用第三方向量資料庫時的 18%。在端到端 FP8 訓練的前提下,零一萬物能夠采用技術和工程手段得到與更高精度類型相媲美的訓練結果,與此同時模型訓練所需的顯存占用、通訊帶寬都極大降低。

訓練和推理成本的下降固然已經成為行業趨勢,但在達标 TC-PMF 的激烈角逐中,AI Infra 優化使得零一萬物能夠比行業更快、更精準地抵達普惠點。“模基共建”所帶來的絕對領先的成本優勢,為零一萬物争取到了更多時間,推出價廉物美的 API 和開源模型,進一步催化更多的 AI-First 應用生态。

模應一體:初步跑通TC-PMF,全球市場打磨造血能力

國内大模型領域陷入混戰的 2023 年初,各式各樣的評測榜單鋪天蓋地,跻身各大榜單 TOP 的模型不在少數。大模型進入第二年,行業進入更為現實的商業落地階段,客戶/使用者都會按照應用側所展現的能力,用腳投票。如何基于基座模型能力,盡可能提升應用效果,是追趕 TC-PMF 的重要課題。

基座模型、AI Infra、API、C 端應用,全棧式業務部署,使得零一萬物能夠以更全面的視野來看待大模型時代的增長陷阱,也為零一萬物在應用層的商業落地帶來了更大的發揮空間。無論是 2C 還是 2B,“模應一體”的思路始終貫穿零一萬物的商業實踐——模型團隊與産品團隊緊密結合,摸清模型能力邊界,針對某一應用場景去優化專有模型,并最終實作全球範圍内的彎道超車。

“AI-First 不等于 AI Only,”零一萬物生産力産品負責人曹大鵬表示,“模型、工程、算法、産品要基于場景深度結合,模型長闆比對剛需高價值場景,建構AI-First 工作流,追求極緻體驗、一站式解決使用者問題,而不是單純秀模型能力肌肉,拿錘子找釘子。”

“萬知”正是這一理念的最好證明。“找、讀、寫” 職場人的三大需求精準切入辦公場景剛需,AI 助力之下的檔案撰寫提效超 10 倍,低專業判斷的日常白領任務節約時間超8成,聯網生成回答、PPT 速率遠超行業平均水準。萬知還創新性地将多模态能力與PDF文檔閱讀場景相結合,解決PDF文檔中大量圖表無法識别的痛點。這一功能的實作離不開高性能的場景專屬模型——多模态模型 Yi-VL-Plus 在視覺模型盲測平台Vision Arena上的評測成績始終保持全球領先。

在行業普遍追求大項目、快增長的背景下,零一萬物選擇了冷靜克制的發展路徑,更關注能造血的“高品質增長”。在 AI 1.0 時代,人工智能還未展現出高泛化性和湧現能力,針對頭部客戶做私有化部署的模式成為主流,但時間已經證明,偏項目制的重傳遞模式所帶來的營收增長存在上限,其可持續性挑戰嚴峻。

在零一萬物 API 平台負責人藍雨川看來,已經在海外充分得到商業模式驗證的 API 會是更好的選擇。作為标準化産品的 API 複用性更強,商業模式也更趨近于雲服務。比起 AI 1.0 定制化重傳遞的模式,API 能夠更快穿透千行百業,藍雨川表示,零一萬物提供世界第一梯隊的模型、最佳成本效益的方案,聚焦企業如何用 AI 為自身業務帶來增長。

API 與萬知等C端應用共同建構起了零一萬物的商業落地版圖,也成為零一萬物追逐 TC-PMF 的重要實踐。在李開複博士的規劃中,零一萬物将作為具有前瞻性的務實者一步步實作落地,并最終達到 TC-PMF,打造出 AI 2.0 時代的超級應用,實作讓通用人工智能普惠各地,人人受益。

在普惠各地的願景下,海外市場是零一萬物不可或缺的一部分。值得一提的是,無論是B端API 還是C端應用,零一萬物都已開啟海外的落地嘗試。

去年9月開始,零一萬物便聚焦生産力、社交賽道于海外應用展開探索,已有 4 款産品陸續上線。目前零一萬物海外生産力應用總使用者接近千萬,營收今年預期過億人民币,已實踐出大模型 2C 産品的 TC-PMF——産品 ROI 為1,初步擺脫燒錢獲客,成功驗證了 AI-First 産品的使用者訂閱制商業模式。API 也将面向海外推出 Yi-Large、Yi-Large-RAG、Yi-Medium 等API,還未上線便已在開發者群體裡引發關注。

由于海外市場與國内市場在付費意願、市場環境方面存在差異,目前萬知采取限時免費模式。但據曹大鵬介紹,後續萬知會結合産品發展和使用者回報推出收費模式。

TC-PMF 所帶來的 AI 普惠點終将來臨,這一次市場競争将不再支援共享單車式的燒錢大戰,采用以資金“跑馬圈地”商業模式的企業必然會率先力竭,冷靜判斷行業發展程序,腳踏實地打磨TC-PMF 才是更符合長期主義的路線。這場較量将包含模型、AI Infra、産品應用等三位一體多個方面,零一萬物已經做足準備。

李開複博士表示,ofo 式的補貼邏輯不再适用于 AI 2.0,希望大模型賽道的競争聚焦于達成 TC-PMF。零一萬物将以全球為目标市場,以更從容的姿态迎接必然被點燃的中國普惠AI市場。

繼續閱讀