天天看點

王小川月更大模型:530億參數但閉源,現場拷問室溫超導相關問題

王小川月更大模型:530億參數但閉源,現場拷問室溫超導相關問題

衡宇 發自 凹非寺

量子位 | 公衆号 QbitAI

王小川旗下百川智能,又雙叒叕釋出大模型了。

Baichuan-53B,530億參數,是百川智能首個閉源大模型。

這是一個主要面向公衆(To C),展示百川大模型能力的版本,為To B的進一步落地和商業化做準備。

該版本的API能力會在下個月對外開放,并将陸續開放其它模型元件。

在媒體溝通會現場,王小川親自現場示範了Baichuan-53B的能力:

王小川月更大模型:530億參數但閉源,現場拷問室溫超導相關問題

他表示當年在搜狗的時候,也想過讓搜尋變成問答,或讓輸入法根據聯想續寫句子段落,但仍然無法達到現在這樣的效果。

示範後連說“好像沒有翻車”的王小川,對大模型創業帶給自己的成就感直言不諱:

大模型創業,比當年做搜尋引擎(帶給我的)成就感更大。

他還透露,目前百川113名員工,其中約30%是搜狗昔年的成員。

王小川月更大模型:530億參數但閉源,現場拷問室溫超導相關問題

Baichuan-53B是該公司釋出的第三個大模型。

官宣成立以來,百川智能保持每月對外釋出一次的速度:

6月初釋出中英文語言模型Baichuan-7B,7月初釋出通用大語言模型Baichuan-13B,同時宣布清華北大已經率先内測。

最新進展是,在騰訊雲和阿裡雲提供算力的情況下,已經有浪潮、火山引擎等150+公司部署使用了Baichuan大模型。

第三次疊代,王小川率隊釋出的這一版530億參數大模型,帶來了哪些新東西?

Baichuan-53B

示範現場,王小川讓Baichuan-53B完成了一些知識問答和文本創作類的任務,比如完成一個電動汽車品牌調研PPT、給一家公司起名等。

不過他也笑着表示:“這些能力其實都不新鮮了,就看各家完成的品質怎麼樣。”

(話雖這麼講,此處還是附上一些測試圖)

關于熱點時事常溫超導的提問:

王小川月更大模型:530億參數但閉源,現場拷問室溫超導相關問題

關于博大精深中文的benchmark測試:

王小川月更大模型:530億參數但閉源,現場拷問室溫超導相關問題

以及一份短視訊鏡頭腳本策劃與寫作:

據介紹,Baichuan-53B主要針對搜尋增強、預訓練資料和對齊能力3個方面進行了更新:

53B對“搜尋增強”的追求,多次在媒體溝通會上被王小川提到。

以此為目的,Baichuan-53B還完成了智能化搜尋詞生成、高品質搜尋結果篩選和回答結果的搜尋增強等優化工作。

為了彌補大模型本身的幻覺問題,同時讓大模型的回答更有時效性、更精确,Baichuan-53B的搜尋增強系統融合了多個子產品,包括指令意圖了解、智能搜尋和結果增強等關鍵元件。

王小川月更大模型:530億參數但閉源,現場拷問室溫超導相關問題

這一綜合體系通過深入了解使用者指令,精确驅動查詢詞的搜尋,并結合大語言模型技術來優化模型結果生成的可靠性。

王小川現場解釋道,今後在這一層面,會嘗試讓搜尋引擎和大模型在模型層面就有更多的互動。

尤其對于重視To B條線的百川智能來說,采取的方法是接入企業私有的向量資料庫。

而現在釋出的53B,接入了某家搜尋引擎的能力。

王小川月更大模型:530億參數但閉源,現場拷問室溫超導相關問題

體驗了一把,是可以問出最新相關消息的。

王小川月更大模型:530億參數但閉源,現場拷問室溫超導相關問題

在預訓練資料方面,為了追求更豐富、品質更好的資料,百川智能建立了一套包括低質、優質、類别在内的系統的資料品質體系、設計了一個多粒度的大規模聚類系統,并且開發了一種細粒度的自動化比對算法。

在與人類意圖對齊方面,Baichuan-53B進行了多目标優化、多RM融合、資料多樣性/品質識别、SFT訓練加速、課程學習政策等工作。

需要注意的是,Baichuan-53B除了參數量對外公布,中英文語料規模、上下文視窗長度均未對外透露。

百川智能第一個閉源模型

連續釋出兩個開源模型後,百川智能的第三個模型選擇了閉源路線。

為什麼會轉向不開源模型?王小川進行了回答。

他給出的解釋是,開源和閉源之間,并不像安卓和iOS之間必須二選一,“我們認為這不是競争關系,而是不同産品間的互補關系”。

從百川智能定位的To B落地的視角來看,出于“未來80%的企業都需要使用開源模型”的認知,開源、閉源在百川的技術路線裡,都需要實作。

開源模型,百川能讓使用者使用模型時更輕便、更靈活;

但是從13B提升到53B,模型參數的增加,提高了企業推理部署時的難度。

于是53B走閉源路線。如此一來,百川提供的接口更直接、更簡單,讓有需要的客戶更友善地調用。

“大家其實生活中有經驗,一個“開箱即用”的精裝房,哪怕再像樣闆間,還是得拆了重新裝修。”他繼續說道,“也就是說,有能力的人,會在這個基礎上自己進行調優。”

王小川給出了一個态度:

開源閉源,我們都會發,但對開發者最大的尊重是給他一個毛坯房,而不是精準房。

而且在開源市場,此前的7B、13B兩款大模型,作為後發者(相比于智譜、MiniMax等),百川智能“給中國的大模型商業生态做出了一些貢獻”,以至于“LlaMA-2釋出的時候大家并沒有太受驚吓”。

對齊LlaMA-2的能力,也是百川作為國内大模型創業公司一員,追趕國外大模型能力的“小目标”。

且追趕并不是隻盯着LlaMA-2的參數去做文章,更需要是關注背後的開源生态在某些具體場景如何進行強化。

同時,此前釋出開源模型,在某種程度上也是百川秀肌肉的一部分。

搜狗舊部占百川人員30%

溝通會上,又一名搜狗舊部以百川智能聯合創始人的身份亮相——

陳炜鵬,百川智能聯合創始人,主要負責大語言模型技術部分。

此前在搜狗時,陳曾任搜狗搜尋研發總經理,負責搜狗通用/垂直搜尋和推薦系統的研發工作。

搜狗被騰訊收購後,陳炜鵬加入Soul,擔任技術VP,負責算法能力建設,推動内容了解、推薦技術和AIGC技術在社交場景的應用和落地。

王小川月更大模型:530億參數但閉源,現場拷問室溫超導相關問題

此次王小川進行大模型創業,不少都是搜狗老班底。

比如公司創立時就确認入職的前搜狗COO茹立雲,以及上月月底官宣加入的洪濤——前搜狗CMO,入職百川智能,負責商業化方面的事務。

現如今,百川智能上下共113個人,其中有搜狗背景的占據其中30%左右(這也一度被投資人質疑,到底為啥要用那麼多搜狗的人??)。

王小川說了三個理由:

第一,搜尋和輸入法用到的NLP等知識和經驗,都能完整地适配大模型領域;

第二,之前有過親密無間的合作,彼此之間更加信任;

第三,創業公司有一定的失敗率,但是成功之後,回報會比以前在搜狗高很多——不論是物質,還是精神。

内測申請網址:

https://chat.baichuan-ai.com/home