天天看點

讓大模型“外挂硬碟”,百川智能釋出新API系列,企業定制成本大大降低

作者:36氪

自ChatGPT引爆全球AI浪潮以來,AI圈子已經迅速走過了造出了通用大模型的第一道關卡,如今最關鍵的問題在于——如何讓大模型高效地在實際應用場景中落地?

百川智能的最新實踐是:用大模型+增強技術,可以大大提升企業應用大模型的效率。

現在,全球大模型領域都在“開卷”長文本,這是目前大模型能否落地更多場景的關鍵一步。10月,百川就釋出釋出最新的長視窗模型Baichuan2-192k,意味着能夠處理約35萬個漢字,是OpenAI旗下GPT-4的14倍,“長文本專家”Anthropic旗下Claude2大模型的4.4倍。

而在12月19日,百川智能宣布正式推出基于搜尋增強的Baichuan2-Turbo系列API,包含Baichuan2-Turbo-192K及Baichuan2-Turbo。

目前,百川智能已經更新了官網模型。企業使用者可以在API中上傳公司的PDF、Word等多種文本上傳以及URL網址,即可體驗搜尋增強和長視窗加持後的Baichuan2大模型。

給大模型“外挂硬碟”,秒建公司知識庫

百川智能認為,大模型是新時代的計算機,就如同中央處理器一樣;而上下文視窗可以看做計算機的記憶體,存儲了當下正在處理的文本。網際網路實時資訊與企業完整知識庫,則共同構成大模型時代的硬碟。

而基于搜尋增強技術推出的API系列,用百川智能CEO王小川的話來說:

“就像硬碟一樣,讓大模型可以挂上外部知識庫。”

大模型成為AI時代的基礎設施底座,已成為行業不少人的共識。不過,大模型的技術探索仍在早期,盡管模型參數變大,但還有許多問題尚待解決——“胡說八道”的幻覺問題,以及“記不住上一句問了什麼”的對話視窗問題等等,都極大限制了大模型能夠發揮出的效能。

但是,基于大模型+搜尋增強這一路線之後,大模型的可用性可以有效提升——想要讓大模型記得上一回合講了什麼,不需要通過擴大參數、使用更多算力來重讀文本。“長視窗本身越大,它的性能會越低。是以如何用更好的搜尋降低長視窗的負擔,這個也是長視窗搜尋要做好的工作。”王小川表示。

現在,哪怕基于參數沒那麼大的模型,模型單次擷取的文本量級大大提高,并且速度也能大大提升。

Baichuan-192k API效果到底如何?百川智能展示了長文本領域的經典測試“大海撈針”的結果:

“大海撈針”測試(Needle in the Heystack)是由海外知名AI創業者兼開發者Greg Kamradt設計的,業内公認最權威的大模型長文本準确度測試方法。

簡單而言,這一測試是将一段資訊放在一段長文本中的任意位置,檢測大模型的回答準确率如何。

讓大模型“外挂硬碟”,百川智能釋出新API系列,企業定制成本大大降低

△“大海撈針”壓力測試圖

目前,對于192k token以内的請求,百川智能可以實作100%回答精度。“我們的長視窗能夠做到全綠,相當于能完全不遺漏地把192k裡的資訊全部召回。”王小川表示。

并且,結合搜尋系統,Baichuan-2能夠擷取的原本文本規模提升了兩個數量級,達到5000萬tokens,相當于35萬漢字的規模。

百川智能分别測評了純向量檢索和稀疏檢索+向量檢索的檢索的效果。測試結果顯示,稀疏檢索+向量檢索的方式可以實作95%的回答精度。在文本總量提升大概250倍的情況下,其召回精度可達95%。

讓大模型“外挂硬碟”,百川智能釋出新API系列,企業定制成本大大降低

△在中文場景下的長文本測試

本次測試,百川智能使用中文場景,實驗配置如下:

大海(HayStack):博金大模型挑戰賽-金融資料集中的80份長金融文檔。

針(Needle):2023 年 12 月 16 日,在極客公園創新大會 2024 的現場,王小川進一步分享了大模型的新思考。在王小川看來,大模型帶來的新的開發範式下,産品經理的出發點,應該從思考産品市場比對(PMF),到思考技術與産品的比對怎麼做,即 TPF(Technology Product Fit,技術産品比對)。

查詢問題:王小川認為大模型時代下,産品經理的出發點是什麼?

總而言之,這次的釋出相當于讓大模型的運作速度和精度都再進一步。大模型即使再加長視窗,也能做到資料更新、更快、更準、更全的召回,還能夠遠遠比做行業模型的成本要低。

大模型做定制,不等于項目化

除了新的API系列外,本次釋出中,百川也釋出了另一項功能:百川搜尋增強知識庫。使用過程也很簡單:企業從私有化部署到雲端把自己的知識上傳到其中,即可生成一個一個外挂的系統,跟Baichuan2系統對接——相當于每個企業可以定制自己的硬碟,做到即插即用。

API和增強知識庫的推出,最直覺的落地效果是,模型比原先長視窗處理速度更快,成本更低。

如今的Baichuan-2能夠拓展到大量To B場景當中,例如金融、政務、司法、教育等行業的智能客服、知識問答、合規風控、營銷顧問等場景。

在釋出會現場,百川也展示了金融行業的知識庫搜尋場景。某銀行的知識庫總量有6T,共12905個文檔,Baichuan2能夠海量的知識庫可以查找找到文檔裡的内容。将36萬字的文檔通過API輸入到模型中,就能精确找到答案。

讓大模型“外挂硬碟”,百川智能釋出新API系列,企業定制成本大大降低

△百川現場展示投研資訊提取和分析

可以說,大模型+搜尋增強的方法,為以後大模型在行業落地提供了一條務實的路徑。

企業知識庫是現在大模型應用的主流場景。在以前,企業想要建一個企業知識庫,需要通過預訓練或者微調訓練大模型,也需要比較高素質的AI人才。當底層的大模型資料每更新一次,都要重新訓練或微調,成本也較為昂貴,且可控性和穩定性也很容易下降。

另外一點是,建構大模型知識庫的主流方法是向量檢索,但向量資料庫應用成本也相對高昂,而向量模型的效果過于依賴訓練資料的覆寫。在訓練資料未覆寫的領域泛化能力會有明顯折扣。使用者Prompt和知識庫中文檔長度的差距,也會給向量檢索帶來了很大挑戰。

針對這些問題,在推出大模型+搜尋增強的過程中,百川智能也解決了一些技術難題,比如在通用RAG(檢索增強生成)的技術基礎上首創了Self-Critique大模型自省技術——以讓大模型在輸出答案之前“再自檢”,給使用者篩選出最優質的答案。

最終結果是,将搜尋增強知識庫和超長上下文視窗結合後,模型“接上外挂”,就可以連接配接全部企業知識庫以及全網資訊。可以替代絕大部分的企業個性化微調,解決99%企業知識庫的定制化需求——企業要做定制化,成本可以大大降低。

王小川坦承,目前大模型在行業化中落地,客制化(Customized)是無法避免的,但可以通過技術的疊代,不斷降低給客戶傳遞的能力。“我們避免項目化,用産品化取代項目化。”他解釋。

随着新模型和API系列釋出,目前百川智能也正在快速推進商業化落地。百川智能透露,目前多個行業的頭部企業已與百川智能達成合作。

歡迎交流

歡迎交流

繼續閱讀