王小川月更大模型：530億參數但閉源，現場拷問室溫超導相關問題

衡宇發自凹非寺

量子位 | 公衆号 QbitAI

王小川旗下百川智能，又雙叒叕釋出大模型了。

Baichuan-53B，530億參數，是百川智能首個閉源大模型。

這是一個主要面向公衆（To C），展示百川大模型能力的版本，為To B的進一步落地和商業化做準備。

該版本的API能力會在下個月對外開放，并将陸續開放其它模型元件。

在媒體溝通會現場，王小川親自現場示範了Baichuan-53B的能力：

他表示當年在搜狗的時候，也想過讓搜尋變成問答，或讓輸入法根據聯想續寫句子段落，但仍然無法達到現在這樣的效果。

示範後連說“好像沒有翻車”的王小川，對大模型創業帶給自己的成就感直言不諱：

大模型創業，比當年做搜尋引擎（帶給我的）成就感更大。

他還透露，目前百川113名員工，其中約30%是搜狗昔年的成員。

Baichuan-53B是該公司釋出的第三個大模型。

官宣成立以來，百川智能保持每月對外釋出一次的速度：

6月初釋出中英文語言模型Baichuan-7B，7月初釋出通用大語言模型Baichuan-13B，同時宣布清華北大已經率先内測。

最新進展是，在騰訊雲和阿裡雲提供算力的情況下，已經有浪潮、火山引擎等150+公司部署使用了Baichuan大模型。

第三次疊代，王小川率隊釋出的這一版530億參數大模型，帶來了哪些新東西？

Baichuan-53B

示範現場，王小川讓Baichuan-53B完成了一些知識問答和文本創作類的任務，比如完成一個電動汽車品牌調研PPT、給一家公司起名等。

不過他也笑着表示：“這些能力其實都不新鮮了，就看各家完成的品質怎麼樣。”

（話雖這麼講，此處還是附上一些測試圖）

關于熱點時事常溫超導的提問：

關于博大精深中文的benchmark測試：

以及一份短視訊鏡頭腳本策劃與寫作：

據介紹，Baichuan-53B主要針對搜尋增強、預訓練資料和對齊能力3個方面進行了更新：

53B對“搜尋增強”的追求，多次在媒體溝通會上被王小川提到。

以此為目的，Baichuan-53B還完成了智能化搜尋詞生成、高品質搜尋結果篩選和回答結果的搜尋增強等優化工作。

為了彌補大模型本身的幻覺問題，同時讓大模型的回答更有時效性、更精确，Baichuan-53B的搜尋增強系統融合了多個子產品，包括指令意圖了解、智能搜尋和結果增強等關鍵元件。

這一綜合體系通過深入了解使用者指令，精确驅動查詢詞的搜尋，并結合大語言模型技術來優化模型結果生成的可靠性。

王小川現場解釋道，今後在這一層面，會嘗試讓搜尋引擎和大模型在模型層面就有更多的互動。

尤其對于重視To B條線的百川智能來說，采取的方法是接入企業私有的向量資料庫。

而現在釋出的53B，接入了某家搜尋引擎的能力。

體驗了一把，是可以問出最新相關消息的。

在預訓練資料方面，為了追求更豐富、品質更好的資料，百川智能建立了一套包括低質、優質、類别在内的系統的資料品質體系、設計了一個多粒度的大規模聚類系統，并且開發了一種細粒度的自動化比對算法。

在與人類意圖對齊方面，Baichuan-53B進行了多目标優化、多RM融合、資料多樣性/品質識别、SFT訓練加速、課程學習政策等工作。

需要注意的是，Baichuan-53B除了參數量對外公布，中英文語料規模、上下文視窗長度均未對外透露。

百川智能第一個閉源模型

連續釋出兩個開源模型後，百川智能的第三個模型選擇了閉源路線。

為什麼會轉向不開源模型？王小川進行了回答。

他給出的解釋是，開源和閉源之間，并不像安卓和iOS之間必須二選一，“我們認為這不是競争關系，而是不同産品間的互補關系”。

從百川智能定位的To B落地的視角來看，出于“未來80%的企業都需要使用開源模型”的認知，開源、閉源在百川的技術路線裡，都需要實作。

開源模型，百川能讓使用者使用模型時更輕便、更靈活；

但是從13B提升到53B，模型參數的增加，提高了企業推理部署時的難度。

于是53B走閉源路線。如此一來，百川提供的接口更直接、更簡單，讓有需要的客戶更友善地調用。

“大家其實生活中有經驗，一個“開箱即用”的精裝房，哪怕再像樣闆間，還是得拆了重新裝修。”他繼續說道，“也就是說，有能力的人，會在這個基礎上自己進行調優。”

王小川給出了一個态度：

開源閉源，我們都會發，但對開發者最大的尊重是給他一個毛坯房，而不是精準房。

而且在開源市場，此前的7B、13B兩款大模型，作為後發者（相比于智譜、MiniMax等），百川智能“給中國的大模型商業生态做出了一些貢獻”，以至于“LlaMA-2釋出的時候大家并沒有太受驚吓”。

對齊LlaMA-2的能力，也是百川作為國内大模型創業公司一員，追趕國外大模型能力的“小目标”。

且追趕并不是隻盯着LlaMA-2的參數去做文章，更需要是關注背後的開源生态在某些具體場景如何進行強化。

同時，此前釋出開源模型，在某種程度上也是百川秀肌肉的一部分。

搜狗舊部占百川人員30%

溝通會上，又一名搜狗舊部以百川智能聯合創始人的身份亮相——

陳炜鵬，百川智能聯合創始人，主要負責大語言模型技術部分。

此前在搜狗時，陳曾任搜狗搜尋研發總經理，負責搜狗通用/垂直搜尋和推薦系統的研發工作。

搜狗被騰訊收購後，陳炜鵬加入Soul，擔任技術VP，負責算法能力建設，推動内容了解、推薦技術和AIGC技術在社交場景的應用和落地。

此次王小川進行大模型創業，不少都是搜狗老班底。

比如公司創立時就确認入職的前搜狗COO茹立雲，以及上月月底官宣加入的洪濤——前搜狗CMO，入職百川智能，負責商業化方面的事務。

現如今，百川智能上下共113個人，其中有搜狗背景的占據其中30%左右（這也一度被投資人質疑，到底為啥要用那麼多搜狗的人？？）。

王小川說了三個理由：

第一，搜尋和輸入法用到的NLP等知識和經驗，都能完整地适配大模型領域；

第二，之前有過親密無間的合作，彼此之間更加信任；

第三，創業公司有一定的失敗率，但是成功之後，回報會比以前在搜狗高很多——不論是物質，還是精神。

内測申請網址：

https://chat.baichuan-ai.com/home