天天看點

知識圖譜之檢索增強技術 | TF131回顧

作者:CCFvoice

5月7日,CCF TF第131期“知識圖譜之檢索增強技術”以線上會議形式成功舉辦。本次活動由CCF TF知識圖譜SIG策劃呈現,邀請了360人工智能研究院、騰訊AI Lab、阿裡巴巴通義實驗室、網易有道QAnything等網際網路企業的中檢索增強技術研究負責人,一起圍繞知識圖譜之檢索增強技術話題,分享檢索增強技術的前沿發展、知識圖譜與檢索增強技術融合的機遇與挑戰以及典型案例與最佳實踐。

CCF TF活動相關專家報告均收錄在CCF數字圖書館【TF專輯】,歡迎長按識别,回看精彩分享。本期活動報告也将于近日收錄,歡迎回顧!

CCF TF第131期“知識圖譜之檢索增強技術”由CCF TF知識圖譜SIG主席王昊奮主持。在活動介紹中,王昊奮對CCF TF的組織結構、宗旨以及往期的活動作出了介紹。

知識圖譜之檢索增強技術 | TF131回顧

《RAG落地中的文檔了解及知識庫建設實踐》

360人工智能研究院資深算法專家劉煥勇分享了RAG技術在360落地以及企業級知識庫建設實踐。分享首先介紹了知識問答任務的特點與文檔智能的應用場景,分析了RAG問答的标流程。其次,針對RAG流程中的各個環節,深入剖析了其中的困難和瓶頸:版面複雜多樣,内容複雜、組織多樣、多因素影響内容召回效果、有監督樣本構造困難,提出了引入文檔智能方法加大知識庫建設。最後具體介紹了知識庫體系建設方法,包括對文檔層級進行抽取按層級、标簽建庫、文檔多模态模型KOSMOS、文檔特定闆式以及表格、公式和圖表資訊的抽取。

知識圖譜之檢索增強技術 | TF131回顧
知識圖譜之檢索增強技術 | TF131回顧

《檢索增強生成?檢索即生成!》

騰訊AI Lab 進階研究員蔡登分享了在檢索增強模型上的相關研究,該分享介紹檢索與生成的融合範式。首先回顧了目前生成式的模型機理,随後介紹了CoG方法的原理,将檢索和生成的過程融合,在從左往右的生成的過程中,從記憶庫檢索相關的詞組(Phrase)代替目前主流生成模型中預測一下個詞元(token)的範式。并将CoG方法在多個下遊任務上進行了驗證,展示出了比基線更好的準确性、可解釋性以及可擴充性。

知識圖譜之檢索增強技術 | TF131回顧
知識圖譜之檢索增強技術 | TF131回顧

《GTE-Embedding/Ranking:統一文本表示與排序模型》

阿裡巴巴通義實驗室算法工程師張延钊分享了在統一文本表示與排序模型的研究工作。該分享梳理了Embedding模型的發展路徑,着重介紹了GTE-Embedding模型的訓練過程。首先在預訓練階段複用LLM訓練、優化技術,多語言/長文本支援的Encoder-Only底座;其次通過弱監督預訓練提升基礎模型的文本表示能力;然後在高品質監督資料下再次進行訓練。随後張延钊介紹了GTE-Rerank模型的技術細節,包括訓練流程與損失函數設計,最後針對目前RAG與長下文LLM的對比進行了深入探讨。

知識圖譜之檢索增強技術 | TF131回顧
知識圖譜之檢索增強技術 | TF131回顧

《有道QAnything的落地經驗分享》

網易有道技術總監林輝分享了網易有道開源RAG引擎QAnything以及RAG落地經驗。該分享首先回顧了網易有道在OCR和NMT技術上的積累以及QAnything的演化史,相關技術與産品快速疊代,技術經曆了從圖檔翻譯、文檔翻譯、到基于大模型的輸入+了解。任務以及從文檔問答到話術助手、有道速讀、AI升學規劃師以及小P老師的快速演變。随後林輝重點介紹了QAything的關鍵子產品(文檔解析、Embedding/Rerank、LLM以及VectorDB)和主要流程(Query了解、搜尋、相關性排序以及LLM生成)。最後林輝聚焦了RAG的落地場景,深入分析了RAG流程中的多個關鍵問題,例如RAG對比微調,以及RAG對比長下文的語言模型。

知識圖譜之檢索增強技術 | TF131回顧
知識圖譜之檢索增強技術 | TF131回顧
知識圖譜之檢索增強技術 | TF131回顧

互動環節,劉煥勇和林輝針對目前開源的RAG架構進行分析和彙總,指出了目前架構的更多是求同存異,在發展初期存在相似性後期會更多的有差異化,蔡登針對CoG方法在大規模資料上的Phrase建構效率的方法進行了深入回答。張延钊解答了大語言模型能否在保持模型生成能力的同時也能做embedding。最後,各位專家共同探讨了大模型知識的外挂和知識的内化之間的平衡問題。

王昊奮總結時提到,他認為在大模型時代,知識圖譜的已經進入一種更為泛化的研究階段,不局限于傳統的三元組,而知識的管理和利用仍是當下值得研究的重要議題。

活動預告

期數 日期 所屬SIG 主題 形式
TF132 5月16日 架構 AI時代的雲原生架構 線上
TF133 5月23日 智能前端 智能時代的前端:新生産力與新體驗 線上
TF134 6月2日 智能制造 大模型在工業智能中的應用場景探讨 線上

關于CCF TF

CCF TF技術前線(Tech Frontier)創立于2017年6月,旨在為工程師提供頂級交流平台,更好地服務企業界計算機專業人士,幫助企業界專業技術人士職業發展,通過搭建平台實作常态化合作和發展,促進企業間、學術界與企業間技術交流。目前已組建知識圖譜、資料科學、智能制造、架構、安全、智能裝置與互動、數字化轉型與企業架構、算法與AI、智能前端、工程師文化、研發效能、品質工程等十二個SIG(Special Interest Group),提供豐富的技術前線内容分享。

加入CCF

加入CCF會員享受更多超值活動,為自己的技術成長做一次好投資。

點選連結了解更多會員權益:

CCF個人會員權益 CCF公司會員權益

識别或掃碼入會

歡迎關注CCFTF及CCF業務總部公衆号,精彩陸續開啟!

關注CCFTF擷取TF活動資訊

關注CCF業務總部優惠預定會議場地

CCF推薦

【精品文章】

  • AI時代的雲原生架構 | 5月16日 TF132報名
  • 2024年TF活動正式啟動!一鍵解鎖全年計劃