天天看點

大模型+搜尋完整技術,百川智能搜尋增強給企業定制化下了一劑猛藥

機器之心報道

機器之心編輯部

用好企業知識庫是大模型應用破局的關鍵。

從 ChatGPT 最初釋出算起,雖然大模型的熱潮已經持續了一年多,但大部分時間依然停留在學術前沿和技術創新層面,深入具體場景實作産業價值的案例并不多見。

實際落地的種種挑戰最終指向一個方向:行業知識。

面對各行各業的垂直場景,依靠網絡公開資訊和知識預訓練的通用模型很難搞定準确性、穩定性、成本效益等問題。如果在外部實時資訊搜尋之餘輔以強大的專門的企業知識庫,讓模型對行業知識的了解大大增強,效果自然更好。

這就好比我們熟悉的「開卷考試」模式,人類大腦的「記憶體容量」越強越好,但終歸有上限,而帶進考場的參考資料正如外接「硬碟」,讓考生不需要去背誦繁雜的知識點,而是可以将精力更多地花在了解知識的本質邏輯上。

在 12 月 19 日舉辦的 Baichuan2 Turbo 系列 API 釋出活動上,百川智能創始人、CEO 王小川做了一個更精準的類比:大模型就像計算機的 CPU ,通過預訓練将知識内化在模型内部,然後根據使用者的 Prompt 生成結果,上下文視窗可以看做計算機的記憶體,存儲了當下正在處理的文本,而網際網路實時資訊與企業完整知識庫共同構成了大模型時代的硬碟。

這些最新的技術思考,已經融入到百川智能的大模型産品之中。

百川智能正式開放了基于搜尋增強的 Baichuan2-Turbo 系列 API ,包含 Baichuan2-Turbo-192K 及 Baichuan2-Turbo 。該系列 API 不僅支援 192K 的超長上下文視窗,還增加了搜尋增強知識庫的能力,所有使用者均可上傳特定文本資料建構自身專屬知識庫,根據自身業務需求建構更完整、高效的智能解決方案。

與此同時,百川智能也更新了官網模型體驗,正式支援 PDF 文本上傳以及 URL 網址輸入,普通使用者均可通過官網入口體驗長上下文視窗和搜尋增強加持後的通用智能水準的飛升。

大模型+搜尋完整技術,百川智能搜尋增強給企業定制化下了一劑猛藥

大模型落地,「記憶體」和「硬碟」缺一不可

大模型應用的關鍵在于用好企業資料,對于這一點,領域内從業者都感受非常深刻。

對于企業自身來說,過去數年在數字化建設過程中,大量的高價值資料和經驗被沉澱下來,這些自有資料構成了企業的核心競争力,也決定了大模型落地的深度和廣度。

以往,實力雄厚的企業多在預訓練階段利用自身資料來訓練大模型,但這種方式所需要的時間和算力成本是巨大的,也需要配備專業的技術團隊。也有企業團隊選擇引入業界領先的基礎大模型,使用自身資料進行後訓練(Post- Train)和有監督微調(SFT),一定程度上彌補了大模型建設周期過長和領域知識匮乏的缺點,但仍然無法解決的是大模型落地的幻覺和時效性問題。無論是預訓練(Pre-Train)還是後訓練(Post- Train)和有監督微調(SFT)的方式,每更新一次資料都要重新訓練或微調模型,并且無法保證訓練的可靠性和應用的穩定性,多次訓練後仍會出現問題。

這意味着,大模型落地需要一種更高效、精準、實時的資料利用方式。

近期,擴充上下文視窗和引入向量資料庫的方法被寄予厚望。從技術層面來看,上下文視窗所能容納的資訊越多,模型在生成下一個字時可以參考的資訊就越多,「幻覺」發生的可能性就越小,生成的資訊就越準确,是以這項技術是大模型技術落地的必要條件之一。向量資料庫則為大模型外接了一個「存儲」。相對于單純擴大模型規模而言,引入外挂資料庫能夠讓大模型在更廣泛的資料集上回答使用者問題,以非常低的成本提高模型對各種環境和問題的适應能力。

隻不過,每一種方法都存在局限,大模型無法依靠單個方案來突破落地挑戰。

比如,上下文視窗過長時存在的容量限制、成本、性能、效率等問題。首先是容量問題,128K 的視窗最多可以容納 23 萬漢字,也不過是一個 658KB 左右的文本文檔。另外是計算成本問題,長視窗模型的推理過程需要消耗大量 token 造成的成本。再從性能上看,由于模型的推理速度與文本長度正相關,即使是運用了大量的緩存技術,長文本也會導緻性能的下降。

對于向量資料庫,由于其查詢和索引操作比傳統的關系型資料庫更複雜,這将給企業帶來更多的計算和存儲資源壓力。而且國内的向量資料庫生态系統相對薄弱,對于中小企業來說存在相當高的開發門檻。

在百川智能看來,隻有将長視窗模型與搜尋 / RAG(檢索增強生成)相結合,形成「長視窗模型 + 搜尋」的完整技術棧,才能真正實作高效、高品質的資訊處理。

在上下文視窗方面,百川智能在 10 月 30 日推出了當時全球最長上下文視窗模型 Baichuan2-192K,一次可輸入 35 萬漢字,達到了業界領先的水準。同時,百川智能将向量資料庫更新為搜尋增強知識庫,使得大模型擷取外部知識的能力大大增強,其與超長上下文視窗的結合可以連接配接全網資訊以及全部企業知識庫,進而替代絕大部分的企業個性化微調,解決了 99% 企業知識庫的定制化需求。

這樣一來,企業獲益顯而易見,不僅成本大大降低,還能更好沉澱垂直領域知識,使得企業專有知識庫這一核心資産持續增值。

長視窗模型 + 搜尋增強

如何提升大模型的應用潛力?

一方面,在不修改底層模型本身的情況下,通過增加記憶體(即更長的上下文視窗)和借助搜尋增強(即通路網際網路實時資訊和從專業領域知識庫中擷取專家知識)強強聯合的方法,大模型可以将内化知識與外部知識融會貫通。

另一方面,搜尋增強技術的加入,能更好地發揮長上下文視窗優勢。搜尋增強技術能讓大模型精準了解使用者意圖,在網際網路和專業 / 企業知識庫海量的文檔中找到與使用者意圖最相關的知識,然後将足夠多的知識加載到上下文視窗,借助長視窗模型對搜尋結果做進一步的總結和提煉,更充分地發揮上下文視窗能力,幫助模型生成最優結果,進而實作各技術子產品之間的關聯,形成一個閉環的強大能力網絡。

兩種方法的結合,能夠将上下文視窗的容量拓展到一個全新的高度。百川智能通過長視窗 + 搜尋增強的方式,在 192K 長上下文視窗的基礎上,将大模型能夠擷取的原本文本規模提升了兩個數量級,達到 5000 萬 tokens 。

「大海撈針」測試(Needle in the Heystack)是由海外知名 AI 創業者兼開發者 Greg Kamradt 設計的,業内公認最權威的大模型長文本準确度測試方法。

為驗證長視窗 + 搜尋增強的能力,百川智能采樣了 5000 萬 tokens 的資料集作為大海(Haystack),并使用多個領域的問答作為針(Needle)插入大海(Haystack)不同位置中,并分别測試了純 embedding 檢索和稀疏檢索 + embedding 檢索的檢索方式。

對于 192K tokens 以内的請求,百川智能可以實作 100% 回答精度。

大模型+搜尋完整技術,百川智能搜尋增強給企業定制化下了一劑猛藥

而對于 192K tokens 以上的文檔資料,百川智能結合搜尋系統,将測試集上下文長度擴充到 5000 萬個 tokens,分别評測了純向量檢索和稀疏檢索 + 向量檢索的檢索效果。

測試結果顯示,稀疏檢索 + 向量檢索的方式可以實作 95% 的回答精度,即使在 5000 萬 tokens 的資料集中也可以做到接近全域滿分,而單純的向量檢索隻能實作 80% 的回答精度。

大模型+搜尋完整技術,百川智能搜尋增強給企業定制化下了一劑猛藥

同時,在博金大模型挑戰賽 - 金融資料集(文檔了解部分)、MultiFieldQA-zh 和 DuReader 三個測試集上,百川智能搜尋增強知識庫的得分均領先 GPT-3.5、GPT-4 等行業頭部模型。

大模型+搜尋完整技術,百川智能搜尋增強給企業定制化下了一劑猛藥

長視窗與搜尋結合不易,百川智能「見招拆招」

「長視窗模型 + 搜尋」固然可以突破大模型在幻覺、時效性和知識等方面的瓶頸,但前提是先要解決二者的結合難題。

二者能不能完美融合,很大程度上決定了模型最終的使用效果。

尤其是在當下,使用者資訊需求表達方式正在發生潛移默化的變化,其與搜尋的深度結合在各個環節都對百川智能提出了新的考驗。

一方面,在輸入方式上,使用者的問題不再是一個詞或短句,而是轉變成了更自然的對話互動甚至是連續多輪對話。另一方面,問題形式也更加多元,并且緊密關聯上下文。輸入風格上更加口語化,輸入問題趨于複雜化。

這些在 Prompt 方面的變化與傳統基于關鍵詞或者短句表達搜尋邏輯并不比對,如何實作二者對齊是長視窗模型與搜尋結合要解決的第一個難題。

為了更精準地了解使用者意圖,百川智能首先利用自研大模型對使用者意圖了解進行微調,将使用者連續多輪、口語化的 Prompt 轉換為更符合傳統搜尋引擎了解的關鍵詞或語義結構,呈現出來的搜尋結果也更精确和更相關。

大模型+搜尋完整技術,百川智能搜尋增強給企業定制化下了一劑猛藥

其次,針對使用者實際場景中日益複雜的問題,百川智能不僅借鑒了 Meta 的 CoVe(鍊式驗證)技術,将複雜 Prompt 拆分為多個獨立且能并行檢索的搜尋友好型查詢,讓大模型對每個子查詢進行定向知識庫搜尋,最終提供更準确詳實答案的同時減少幻覺輸出。此外,還利用自研的 TSF(Think Step-Further)技術推斷并挖掘出使用者輸入背後更深層的問題,更精準、全面地了解使用者意圖,引導模型輸出更有價值的答案。

另外一個難題與企業知識庫本身相關。使用者需求與搜尋查詢的比對程度越高,大模型的輸出結果自然更好。但在知識庫場景中,模型要想進一步提升知識擷取的效率和準确性,則需要更強大的檢索和召回解決方案。

知識庫場景有其獨特的特征,使用者資料通常是私有化的,利用傳統的向量資料庫無法很好保證使用者需求與知識庫的語義比對。

為此,百川智能自研了 Baichuan-Text-Embedding 向量模型,在超過 1.5T tokens 的高品質中文資料上進行預訓練,并通過自研損失函數解決對比學習方式依賴 batchsize 的問題。效果很顯著,該向量模型登頂了目前最大規模、最全面的中文語義向量評測基準 C-MTEB,并在分類、聚類、排序、檢索和文本相似度 5 個任務及綜合評分上取得領先。

大模型+搜尋完整技術,百川智能搜尋增強給企業定制化下了一劑猛藥

雖然目前建構大模型知識庫的主流方法是向量檢索,但單純依靠它顯然是不夠的。究其原因,向量資料庫的效果對訓練資料覆寫的依賴很大,在未覆寫的領域泛化能力會大打折扣,這無疑給資料私有化知識庫場景造成了不小的麻煩。同時,使用者 Prompt 與知識庫中文檔長度存在差距,二者不比對也為向量檢索帶來挑戰。

是以,百川智能在向量檢索基礎上引入稀疏檢索和 rerank 模型,形成向量檢索與稀疏檢索并行的混合檢索方式,大幅提升了目标文檔的召回率。用資料說話,這種混合檢索方式對目标文檔的召回率達到了 95%,而絕大多數開源向量模型的召回率低于 80%。

此外,大模型在回答問題過程中也會因引用資料不準确以及與大模型不比對,加重自身的幻覺現。

對此,百川智能在通用 RAG 的基礎上首創 Self-Critique 大模型自省技術,讓大模型基于 Prompt、從相關性和可用性等角度對檢索回來的内容自省,進行二次檢視,從中篩選出與 Prompt 最比對、最優質的候選内容,讓材料的知識密度和廣度更上一個台階,還能降低檢索結果中的知識噪聲。

大模型+搜尋完整技術,百川智能搜尋增強給企業定制化下了一劑猛藥

沿着「長視窗模型 + 搜尋」技術棧路線,百川智能憑借自身在搜尋領域的技術積累,尤其是業界領先的向量檢索與稀疏檢索的配合,解決了大模型與使用者 Prompt、企業知識庫結合中需求不比對的痛點,讓自身搜尋增強知識庫的能力凸顯出來,對于大模型更高效地賦能行業垂直場景真可謂如虎添翼。大模型落地,搜尋增強開啟企業定制化新階段

短短一年間,大模型的發展超乎人們的想象。我們曾經展望「行業大模型」能夠帶來千行百業的生産力釋放,但行業大模型受到專業技術人才和算力支撐等因素制約,更多中小企業更無法在這波大模型浪潮中收獲紅利。

由此可見,走出「從産品到落地」這一步,的确比當初的「從技術到産品」更難。

在轟轟烈烈的百模大戰到定制化大模型的比拼中,技術經曆了一輪又一輪疊代,從最開始基于預訓練做行業大模型、基于後訓練或 SFT 做企業專屬模型,到之後利用長視窗、向量資料庫等技術開發專屬定制化模型,雖然都推動大模型離理想中的「全知全能」更近了一些,但在廣泛行業垂直場景中的應用落地還無法真正實作。

百川智能打造「大模型 + 搜尋」技術棧,在憑借長視窗提升模型基礎性能的同時,利用搜尋增強更高效、全面地連接配接領域知識和全網知識,提供了一種更低成本的定制化大模型之路,率先邁出實作「全知」的一步。我們有理由相信,這将引領大模型産業落地走向全新階段。

繼續閱讀