天天看點

合合資訊Embedding模型獲C-MTEB榜單第一

作者:快消八談

現階段,大語言模型的飛速發展吸引着社會各界的目光,背後支撐模型應用落地的Embedding模型也成為業内關注的焦點。近期,合合資訊釋出了文本向量化模型acge_text_embedding(簡稱“acge模型”),獲得MTEB中文榜單(C-MTEB)第一的成績。相關成果将有助于大模型更快速地在千行百業中産生應用價值。

合合資訊Embedding模型獲C-MTEB榜單第一

圖1:C-MTEB榜單結果

MTEB(Massive Text Embedding Benchmark)是衡量文本嵌入模型(Embedding模型)的評估名額的合集,是目前業内評測文本向量模型性能的重要參考。對應的C-MTEB則是專門針對中文文本向量的評測基準,被公認為是目前業界最全面、最權威的中文語義向量評測基準之一,為深度測試中文語義向量的全面性和可靠性提供了可靠的實驗平台。阿裡、騰訊、商湯、百川等多家廠商在此榜單測評釋出模型。

合合資訊Embedding模型獲C-MTEB榜單第一

Embedding模型能夠将單詞、句子或圖像特征等高維的離散資料轉換為低維的連續向量,捕捉到資料的語義特征和關系,被廣泛應用于搜尋、推薦、問答、檢索增強生成、資料挖掘等領域。網際網路時代中,随着資訊量急劇膨脹,人們接觸資訊的管道不斷拓展,大量無關的資訊已成為資訊檢索的幹擾項,Embedding模型能夠顯著提高資訊搜尋和問答的品質、效率和準确性,讓搜尋和問答引擎不再隻是比對文字,而是可以真正了解人的意圖。

“假設你需要了解如何在家中自制咖啡,可能會在搜尋引擎中輸入‘家庭咖啡制作方法’,傳統的搜尋引擎會簡單地比對包含關鍵詞的文章,提供一些關鍵詞相關的内容。”團隊成員提到,借助Embedding模型,引擎便能更準确地了解使用者意圖,進而提供包括但不限于咖啡機選擇、咖啡豆磨豆技巧、不同的沖泡方法等更實用的指南。

合合資訊Embedding模型獲C-MTEB榜單第一

圖2:embedding模型原理示意圖

為了更好地發揮大模型在應用過程中的價值,合合資訊技術團隊打造了acge模型。與目前C-MTEB榜單上排名前五的開源模型相比,合合資訊釋出的acge模型較小,占用資源少,且模型輸入文本長度為1024,滿足絕大部分場景的需求。此外,acge模型還支援可變輸出次元,讓企業能夠根據具體場景去合理配置設定資源。

據團隊成員介紹,相比于傳統的預訓練或微調垂直領域模型,acge模型支援在不同場景下建構通用分類模型、提升長文檔資訊抽取精度,且應用成本相對較低,可幫助大模型在多個行業中快速創造價值,為建構新質生産力提供強有力的技術支援。

合合資訊是一家人工智能及大資料科技企業,基于自主研發的領先的智能文字識别及商業大資料核心技術,為全球C端使用者和多元行業B端客戶提供數字化、智能化的産品及服務。公開資料顯示,公司的C端産品覆寫了全球百餘個國家和地區的億級使用者,B端服務覆寫了近30個行業的企業客戶。《财富》雜志2022年釋出的世界500強公司名單中,公司客戶已覆寫超過125家。