智能周報｜今夏大模型之戰：真正的推理能力

撰文 | 新皮層小組

編輯 | 吳洋洋

基于生成式AI（GenAI）開發的商業化産品越來越多。本周，Google考慮對基于AI的搜尋服務收費、TikTok将推出AI虛拟主播的消息先後傳出，有着「全球首款AI原生硬體」之稱的AI Pin也于本周開始發售，售價699美元。與上一代用基于規則的算法開發出來的菜單式應用相比，這些新産品都開辟了新的互動方式，讓使用者可以通過直接與AI對話獲得服務。

不過，這些GenAI原生應用的商業化進度比預想中來得慢，一大原因仍然是模型能力的局限。模型測評機構Vals.AI的測試結果表明，在從各種次元展開測試的榜單中，GPT-4的排名依然不是第一就是第二，僅在部分情況下Anthropic的最新最大size模型Claude 3 Opus會超過它。也就是說，GPT-4這個釋出于一年前的模型仍然是目前全球最「聰明」的。這種狀況對OpenAI算是好事，但對整個行業來說則相反。

不夠高的準确率使得GenAI很難進入财務、稅務、法律等更具生産力的領域。Vals.AI的測試顯示，在财務相關任務中，隻有GPT-4、Claude 3 Opus、Claude 3 Sonnet等3個模型的準确率超過了60%；而在稅務相關任務中，表現最好的模型GPT-4的準确率也隻有54.5%，其餘大部分模型準确率不到40%；法律相關問題是大模型表現相對較好的任務，比如在法律推理任務上，包括Claude 3 Opus和GPT-4在内的5個模型準确率都超過了70%，其中GPT-4準确率在該任務上達到了77.7%。然而無論60%還是77.7%，這種準确率水準的AI都不足以在财務、稅務、法律等嚴肅場景中商用。自動駕駛同樣如此。

業内已逐漸形成共識，即以GPT為代表的GenAI缺乏真正的推理能力，各大公司也都計劃在接下來推出的新模型中解決這一問題。本周，OpenAI和Meta的高管都表示，他們正準備推出下一個版本的大語言模型。「今天的人工智能系統非常擅長一次性的小任務。」OpenAI首席營運官Brad Lightcap稱，下一代GPT将在解決推理等「難題」方面展現進步。Meta的首席人工智能科學家Yann LeCun則表示，Meta正在開發AI「Agent」（智能體），讓它可以計劃和預訂從巴黎某人的辦公室到紐約另一個辦公室的旅程的每一步行程，這種智能體需要強大的推理和規劃能力，才能完成對任務的拆解、排序和執行。

和OpenAI計劃今年夏天釋出GPT-5類似，Meta也準備在未來幾個月釋出一系列型号尺寸的Llama 3，其中小型号的Llama 3下周就會上架。GenAI能否兌現資本市場對它的估值，就看GPT-5、Llama 3等新一代号稱有推理能力的模型是否能兌現其承諾了。否則，GenAI的商業價值就要大打折扣——作為一個語言、圖像翻譯工具，還是作為決策工具，對應不同等級的産業價值。

以下内容為過去一周值得關注的智能新聞摘要，由《新皮層》團隊制作，歡迎關注。

Key Points

大模型篇

Cohere推出新模型Command R+，更強調RAG；

Meta計劃下周推出小版本Llama 3；

蘋果又釋出了一款試圖讀懂手機螢幕的大模型「Ferret-UI」；

應用篇

Google考慮對基于AI的搜尋服務收費；

TikTok将推出圖檔分享應用「TikTok Notes」；

TikTok将推AI虛拟主播；

AI Pin發售，售價699美元；

Vals.AI要做大模型評測生意；

人才與資金篇

微軟在倫敦新設AI中心；

xAI尋求以180億美元估值融資30億美元；

面壁智能完成數億元融資。

大模型篇

Cohere推出新模型Command R+，更強調「檢索增強」

4月5日，Cohere官宣其新一代大模型Command R+，這距離其推出上一代大模型Command-R僅過去不到1個月。Command R+的參數量達1040億，上下文視窗可支援128K，并具備英語、中文、法語、德語等10種語言能力。Cohere稱，Command R+性能高于Mistral Large，僅次于GPT-4 Tubro。相較于前代模型，Command R+強化了其内置的RAG（檢索增強生成）能力。「新皮層」此前報道，Cohere的目标正從追逐最前沿模型轉向RAG（檢索增強生成）。此前，Cohere曾将大量資金花在了追逐OpenAI和Anthropic的最新模型能力上，然而近期Cohere的上司者決定不與OpenAI等公司競争，不再将開發最大、最先進的AI模型作為首要名額，轉而專注于強化大模型的RAG技術。

Meta計劃下周推出小版本Llama 3

Meta即将推出新款大語言模型Llama 3，對标OpenAI開發的GPT-4。該公司計劃下周推出兩個小尺寸的Llama 3，最大尺寸的版本計劃今年夏天推出。差別于即将釋出的兩個小尺寸模型，最大版本的Llama 3是多模态的，可能擁有超過1400億參數。上個版本的Llama 2推出于2023年2月，也擁有3個不同尺寸。

蘋果又釋出了一款試圖讀懂手機螢幕的大模型「Ferret-UI」

4月8日，蘋果釋出專為了解移動UI螢幕而定制的多模态模型Ferret-UI，它能夠「看懂」手機的UI界面并執行相應任務。經過訓練的Ferret-UI能夠通過不同的輸入格式（點、框、塗鴉）和基礎任務（查找小部件、查找圖示、查找文本、小部件清單）在移動使用者界面螢幕上執行任務，如小元件分類、圖示識别和光學字元識别等。Ferret-UI是蘋果為AI了解UI所開發的第二款大模型，新皮層曾報道，蘋果3月29日發表的一篇論文表示蘋果已開發一個名為「ReALM」的模型，該模型可以了解手機螢幕上的資訊，蘋果認為，這是實作用Siri等語音AI操作手機的關鍵一步。目前，蘋果正在考慮引入第三方模型以便在iPhone上實作智能功能，而Google的Gemini和百度的文心一言都是潛在的合作對象。ReALM和Ferret-UI兩款模型釋出意味着蘋果并沒有放棄用自研模型控制手機。

應用篇

Google考慮對基于AI的搜尋服務收費

據報道，Google正在考慮對其主要盈利來源——搜尋引擎進行改革，包括在其進階訂閱服務中添加基于AI的搜尋功能，每月向訂閱使用者收取20美元費用。自2000年開始，Google搜尋業務的收入來源主要是廣告，而這一改革舉措可能會成為Google有史以來最大的變革之一。Google的AI搜尋服務能夠根據搜尋内容生成完整答案後再提供給使用者，而不是像傳統搜尋引擎那樣隻是把一系列相關網頁陳列出來。Google從去年5月開始測試這種AI搜尋服務，如今，Google考慮把這一服務加入其進階訂閱服務中。目前，Google進階訂閱服務月訂閱費為20美元，使用者可以在該服務中使用最新的Gemini Ultra 1.0聊天機器人，能夠在Gmail、Docs和Sheets等生産力套件中使用由Gemini提供的AI能力。如果AI搜尋也加入該訂閱菜單，将是Google第一次将自己的核心業務置于付費牆之後。

TikTok将推出圖檔分享應用「TikTok Notes」

當地時間4月9日，TikTok使用者收到的應用彈窗顯示，公司将推出一款用于分享照片的新應用，名為TikTok Notes。TikTok随後證明了這一消息，稱公司正在開發一款照片分享的專屬空間，但尚未最終确定TikTok Notes的設計和釋出時間。

TikTok Notes是一個用于分享照片的App。按計劃，其初始内容源自TikTok上已釋出的圖文文章。不過，TikTok使用者也可以打開拒絕按鈕，選擇不讓這些照片共享至新應用。上個月曾有消息指出，這款應用原本被命名為TikTok Photos。因發帖格式和内容均集中于照片形式，TikTok Notes也被視為Instagram的競争對手。但相較于Instagram富于包裝感的社群風格，TikTok主打非批判性、即拍即發的社交調性或将幫助Notes吸引更多群體。

TikTok将推AI虛拟主播

4月11日，有報道稱TikTok正在考慮利用AI為廣告商生成虛拟主播，這些主播将在短視訊中擔任主角并介紹廣告上的産品，甚至可能與真人主播競争廣告交易。TikTok正在開發的功能将根據廣告商提供的提示生成視訊廣告腳本，以及生成在視訊中執行腳本的虛拟人物。該功能不僅面向廣告商開放，TikTok商店中的商家也可以使用該功能來推廣商品。目前，這項功能已經測試數月，但離正式推出還有一段距離。知情人士稱，根據目前測試結果看，這些AI生成視訊産生的交易數量遠遠少于人類主播創造的交易數量。不過，該功能仍在開發過程中，最終版本可能會發生變化。

AI Pin發售，售價699美元

4月11日，初創公司Humane宣布其首款AI硬體産品AI Pin正式發售，起售價為699美元。除了購買基礎硬體外，使用者還需要訂閱24美元/月的服務，才能使用裝置基礎功能。「新皮層」曾報道，去年11月，Humane宣布推出AI Pin。這款裝置的主要特點是沒有螢幕，互動方式包括語音、敲擊等。比如使用者長按即可與語音助手AI Mic對話，完成查詢資訊、翻譯語言或播放音樂等操作。目前，Humane已經完成2.3億美元融資，OpenAI CEO Sam Altman持有該公司最大的外部股份。除了AI Pin，Humane後續還計劃推出其他AI硬體産品。今年1月，初創公司Rabbit也推出了一款AI語音助手硬體産品R1，支援對話實作查詢、打車、購物等操作。這款産品在CES上亮相後，5天内就賣出了超過5萬台。不過該産品自推出以來面臨不少争議，最大争議是其提供的功能通過App就能解決，不需要為此單獨設計和購買一款硬體。

Vals.AI要做大模型評測生意

4月11日，Vals.ai釋出對多個大模型的第三方行業評測。每有新的大語言模型釋出，其開發者都聲稱他們的模型表現與GPT-4相當或更優，但測試結果缺乏獨立性。随着越來越多公司考慮是否将AI用于特定任務，市場對「無偏見的測試」需求更加強烈。Pear VC合夥人Arash Rakhteh稱，企業需要更多的「細微差别」來了解特定人工智能模型是否「表現更好」或「能夠以更低的成本處理任務」。各大模型在稅務、法律和金融領域的表現評測報告已在Vals.ai官網釋出。資料顯示，不同模型的性能可能因行業而異。例如，Anthropic的Claude 3 Opus和OpenAI的GPT-4在法律推理任務上的準确率皆為77%左右，遠高于它們在稅務問題上的表現。

人才與資金篇

微軟在倫敦新設AI中心

4月8日，微軟宣布，新組建的AI機構Microsoft AI計劃在倫敦設立AI中心，由Inflection、DeepMind前AI科學家兼工程師Jordan Hoffmann上司。後續，Microsoft AI倫敦中心将與微軟旗下AI團隊、OpenAI協作開發大語言模型及其支援性基礎設施。微軟也将開始在倫敦為新的AI中心招聘人才。Jordan Hoffmann不久前才随着微軟「雇用式收購」Inflection而加入微軟。The Information提供的最新交易細節顯示，微軟CEO納德拉是3月19日在一家凱悅酒店與Inflection所有員工面談的，那場面談後，Inflection三位聯合創始人中的兩位和70名員工中的60位都加入了微軟，剩下10位員工隻是留下來維護Inflection面向既有企業客戶的toB服務。

xAI尋求以180億美元估值融資30億美元

4月5日消息稱，馬斯克的人工智能公司xAI正在進行新一輪融資，融資金額30億美元，融資完成後公司估值将達到180億美元，融資條款尚未最終确定。風投公司Gigafund和投資人Steve Jurvetson正考慮參與這輪融資。Gigafund和Steve Jurvetson都與馬斯克有很深的淵源，Gigafund的創始人Luke Nosek曾是PayPal的聯合創始人之一，Steve Jurvetson是特斯拉前董事會成員、SpaceX現董事會成員。此前1月，就有外媒報道稱xAI正在以200億美元的估值籌集60億美元資金，當時馬斯克公開否認該消息。

面壁智能完成數億元融資

4月11日，AI初創公司面壁智能宣布完成新一輪數億元融資，春華創投、華為哈勃領投，北京市人工智能産業投資基金等跟投，知乎作為戰略股東跟投。面壁智能由清華計算機系長聘副教授劉知遠于2022年8月創立，團隊核心成員來自清華大學自然語言處理實驗室。2023年4月，面壁智能獲得知乎領投的數千萬元天使輪融資，智譜AI跟投。6月，知乎合夥人、CTO李大海出任面壁智能CEO。

-END-

智能周報｜今夏大模型之戰：真正的推理能力

繼續閱讀

3900 萬人圍觀雷軍直播試駕；馬斯克招募第二名腦機實驗患者；DeepMind 推出大模型危險性評估架構

從“天價”到“骨折價”，大模型要變天了

大模型想落地，先讓大家用得起

與億級使用者直接互動第三方AI大模型加速接入微網誌生态

訊飛星火大模型賦能，開啟虛拟人“全新意識”

當開源遇到大模型，将産生怎樣的變革？

傳清華系大模型公司高層變動

58同城孫啟明：生活服務垂類大模型怎麼搭？自研+開源兩手抓

AI天玑全量推送國内首個端到端大模型量産上車小鵬開啟AI智駕時代

大模型價格普降，網際網路式“地盤争奪戰”再現大廠真的會虧錢嗎？

中國大模型資本往事：20位大模型局中人走上“生死牌桌”

AI大模型價格戰開打，一年決勝負？

百度首款文心大模型學習機 Z30 開售，8G +256G 售 6694 元

OpenAI官宣啟動“下一代前沿模型”訓練！訓練參數預計将得到更大提升，或整合“文生視訊”模型Sora

大模型競賽，中美科技巨頭為何卷向不同方向？

多語言大模型新SOTA！最新開源Aya-23：支援23種語言，8B/35B可選