合合資訊Embedding模型獲C-MTEB榜單第一

現階段，大語言模型的飛速發展吸引着社會各界的目光，背後支撐模型應用落地的Embedding模型也成為業内關注的焦點。近期，合合資訊釋出了文本向量化模型acge_text_embedding（簡稱“acge模型”），獲得MTEB中文榜單（C-MTEB）第一的成績。相關成果将有助于大模型更快速地在千行百業中産生應用價值。

圖1：C-MTEB榜單結果

MTEB（Massive Text Embedding Benchmark）是衡量文本嵌入模型（Embedding模型）的評估名額的合集，是目前業内評測文本向量模型性能的重要參考。對應的C-MTEB則是專門針對中文文本向量的評測基準，被公認為是目前業界最全面、最權威的中文語義向量評測基準之一，為深度測試中文語義向量的全面性和可靠性提供了可靠的實驗平台。阿裡、騰訊、商湯、百川等多家廠商在此榜單測評釋出模型。

Embedding模型能夠将單詞、句子或圖像特征等高維的離散資料轉換為低維的連續向量，捕捉到資料的語義特征和關系，被廣泛應用于搜尋、推薦、問答、檢索增強生成、資料挖掘等領域。網際網路時代中，随着資訊量急劇膨脹，人們接觸資訊的管道不斷拓展，大量無關的資訊已成為資訊檢索的幹擾項，Embedding模型能夠顯著提高資訊搜尋和問答的品質、效率和準确性，讓搜尋和問答引擎不再隻是比對文字，而是可以真正了解人的意圖。

“假設你需要了解如何在家中自制咖啡，可能會在搜尋引擎中輸入‘家庭咖啡制作方法’，傳統的搜尋引擎會簡單地比對包含關鍵詞的文章，提供一些關鍵詞相關的内容。”團隊成員提到，借助Embedding模型，引擎便能更準确地了解使用者意圖，進而提供包括但不限于咖啡機選擇、咖啡豆磨豆技巧、不同的沖泡方法等更實用的指南。

圖2：embedding模型原理示意圖

為了更好地發揮大模型在應用過程中的價值，合合資訊技術團隊打造了acge模型。與目前C-MTEB榜單上排名前五的開源模型相比，合合資訊釋出的acge模型較小，占用資源少，且模型輸入文本長度為1024，滿足絕大部分場景的需求。此外，acge模型還支援可變輸出次元，讓企業能夠根據具體場景去合理配置設定資源。

據團隊成員介紹，相比于傳統的預訓練或微調垂直領域模型，acge模型支援在不同場景下建構通用分類模型、提升長文檔資訊抽取精度，且應用成本相對較低，可幫助大模型在多個行業中快速創造價值，為建構新質生産力提供強有力的技術支援。

合合資訊是一家人工智能及大資料科技企業，基于自主研發的領先的智能文字識别及商業大資料核心技術，為全球C端使用者和多元行業B端客戶提供數字化、智能化的産品及服務。公開資料顯示，公司的C端産品覆寫了全球百餘個國家和地區的億級使用者，B端服務覆寫了近30個行業的企業客戶。《财富》雜志2022年釋出的世界500強公司名單中，公司客戶已覆寫超過125家。

合合資訊Embedding模型獲C-MTEB榜單第一

繼續閱讀

自我提升人生思維模型

【國中實體】《浮力》常考重難模型

OpenAI秘密上線神秘模型，疑似ChatGPT4.5進行公開測試

中考數學常考幾何導角問題9種模型總結大全

五力模型，提升個人核心能力

卷瘋了！Meta AI釋出了最強開源大模型Llama 3，提供了8B和70B版?

怎麼用AI大模型解決實際問題？

大模型時代，資料中台現在過氣了嗎？

軒轅大模型的實踐與應用 | ML-Summit 2024

移動UI大模型問世，蘋果iPhone或迎更新新周期

科大訊飛不講大模型的“性感故事”

Meta釋出“最強開源AI模型”，下一代或比GPT更強

面壁新模型：早于Llama3、比肩 Llama3、推理超越 Llama3！

華為一季度利潤暴漲564%；天涯社群恢複；小紅書内測自研大模型

有效溝通表達的13個模型

一天吃透一條産業鍊:NO.37 AI大模型産業鍊