天天看點

ACL 2023 | 面向資訊檢索的結構感覺語言模型訓練方法

作者:将門創投

本文中, 針對結構資料檢索,我們提出了面向結構感覺的稠密向量檢索方法(Structure Aware DeNse ReTrievAl, SANTA),該方法設計了結構資料對齊和掩碼實體預測這兩個任務來繼續訓練預訓練語言模型。實驗結果表明,SANTA,它通過捕捉結構化資料的語義來學習更加精準的結構化資料表示,最終在代碼和産品搜尋兩個任務上取得了先進的效果。

ACL 2023 | 面向資訊檢索的結構感覺語言模型訓練方法

論文連結:

https://aclanthology.org/2023.findings-acl.734/

開源代碼:

https://github.com/OpenMatch/SANTA

ACL 2023 | 面向資訊檢索的結構感覺語言模型訓練方法

一、研究背景

結構化資料(如代碼、HTML 文檔和商品描述)在文章、書籍和網頁中無處不在。學習文本結構背後的語義資訊來表示結構化資料,對于建構更完備的檢索系統至關重要。如圖 1,結構化資料檢索任務,如代碼檢索和商品檢索,要求模型根據使用者查詢檢索結構化資料。稠密向量檢索是一種常用的資訊檢索方法,通過在向量空間中對使用者查詢和結構化資料進行編碼,并根據向量的相似度進行比對,來傳回使用者所需要的結構化資料。

ACL 2023 | 面向資訊檢索的結構感覺語言模型訓練方法

圖1. 非結構化資料檢索示例圖

然而,大多數預訓練語言模型缺乏結構感覺預訓練,無法為結構化資料檢索提供有效的向量表示。相關工作提出了一些結構感覺預訓練方法,用于繼續訓練預訓練語言模型使其具備結構感覺能力,來更好地表示結構化資料。這些方法通常設計了特定的掩碼政策,并使用掩碼語言模組化對預訓練語言模型進行訓練。

但僅僅使用掩碼語言模組化可能無法充分訓練預訓練語言模型以進行有效的結構化資料表示。由于結構化和非結構化資料之間通常存在一些自然的對齊信号、結構化資料也蘊含有特殊的結構資訊,這些為訓練結構化資料表示提供了強有力的支援。我們在此基礎上提出了一種結構感覺語言模型預訓練方法,用于實作面向結構化資料的稠密向量檢索模型。

二、面向結構感覺的語言模型預訓練方法

ACL 2023 | 面向資訊檢索的結構感覺語言模型訓練方法

圖2. 結構感覺預訓練方法描述圖。我們使用了結構資料對齊(SDA)和掩碼實體預測(MEP)兩種預訓練方法。

針對結構資料檢索,我們提出了面向結構感覺的稠密向量檢索方法(Structure Aware DeNse ReTrievAl, SANTA)。如圖 2 所示,SANTA 設計了兩個預訓練任務:結構資料對齊(Structured Data Alignment,SDA)和掩碼實體預測(Masked Entity Prediction,MEP)來繼續訓練預訓練語言模型,使其對結構化資料更加敏感,更好地學習到結構化資料的表示。

  1. 資料收集和處理:我們使用結構化和非結構化資料之間存在的自然對齊信号,代碼-描述文檔和商品描述-商品要點,來構造預訓練資料對。對于代碼,我們将一些代碼辨別符視為實體,如變量、函數名、外部庫和方法,并且在 Python 和其它程式設計語言中分别使用 BytesIO 和 tree_sitter 來識别實體。對于商品描述,我們使用 NLTK 工具來識别同時出現在商品描述和标題中的名詞及特殊名詞,并将它們視為實體。
  2. 結構資料對齊:我們計算編碼後的非結構化資料與結構化資料之間的相似性得分,然後使用對比學習來繼續訓練語言模型。通過将兩種模态資料對齊訓練來指導語言模型優化向量空間。
ACL 2023 | 面向資訊檢索的結構感覺語言模型訓練方法

公式1. 結構資料對齊。由批内負樣本中采樣的結構資料組成

  1. 掩碼實體預測:由于實體語義對于學習資料的結構化語義資訊有着重要作用,我們在預訓練語言模型時采用掩碼語言模型方法來幫助語言模型捕捉資料背後的結構化語義資訊。具體的,我們使用公式2訓練語言模型,讓其從上下文以及學習到的知識中擷取必要的資訊來恢複被掩碼的實體,進而更好地了解資料的結構化語義資訊。
ACL 2023 | 面向資訊檢索的結構感覺語言模型訓練方法

公式2. 掩碼實體預測

三、實驗結果

ACL 2023 | 面向資訊檢索的結構感覺語言模型訓練方法

表1. 不同檢索模型在代碼檢索和商品檢索任務上效果

如表 1 所示,通過與微調後的模型性能進行比較,我們的模型(SANTA)展現出了很強的零樣本能力。在代碼檢索任務上相比微調的 CodeT5 取得了 6.8% 的性能改進。微調之後,在代碼檢索和商品檢索任務上分别比 CodeT5 和 T5 取得了約 8% 和 2% 的性能改進。同時,相比最先進的代碼檢索模型 CodeRetriever 也取得了 4.3% 的性能提升。

ACL 2023 | 面向資訊檢索的結構感覺語言模型訓練方法

表2. 消融實驗

如表 2 所示,在基線模型上增加 MEP 任務與之前表現幾乎相同,說明單純使用掩碼語言模型方法對于結構化文本的表示學習幾乎沒有作用。但與 MEP 不同,SDA 任務在兩個結構化資料檢索任務中都取得了顯著的改進。當同時使用兩個預訓練任務後,檢索性能會進一步提高。這一現象表明 MEP 任務可以通過與 SDA 任務相結合為結構化資料提供更有效的向量表示。

ACL 2023 | 面向資訊檢索的結構感覺語言模型訓練方法

圖3. 不同預訓練方法向量空間展示

如圖 3 所示,我們發現 SDA 任務可以很好地将非結構化資料和非結構化資料進行對齊,然而二者的向量表示會混合在一起;加入了 MEP 任務後,語言模型能夠有能力對結構化和非結構文本進行區分并将其分布到不同區域中。綜上,SDA 和 MEP 從不同方面幫助語言模型捕捉資料的結構化特征,進而實作更加精确的檢索結果。

四、總結

目前預訓練工作忽略了設計特定的結構感覺預訓練任務去學習結構化資料的表示,這使得他們在相應的結構資料檢索任務上的表現差強人意。在這篇文章之中我們設計了結構資料對齊和掩碼實體預測這兩個任務,訓練語言模型,使其學習資料結構背後的結構語義資訊。我們的實驗結果表明,SANTA,它通過捕捉結構化資料的語義來學習更加精準的結構化資料表示,最終在代碼和産品搜尋兩個任務上取得了先進的效果。

作者:李欣澤、劉正皓等來源:公衆号【社媒派SMP】

Illustration by IconScout Store from IconScout

-The End-

掃碼觀看!

本周上新!

“AI技術流”原創投稿計劃

TechBeat是由将門創投建立的AI學習社群(www.techbeat.net)。社群上線480+期talk視訊,2400+篇技術幹貨文章,方向覆寫CV/NLP/ML/Robotis等;每月定期舉辦頂會及其他線上交流活動,不定期舉辦技術人線下聚會交流活動。我們正在努力成為AI人才喜愛的高品質、知識型交流平台,希望為AI人才打造更專業的服務和體驗,加速并陪伴其成長。

投稿内容

// 最新技術解讀/系統性知識分享 //

// 前沿資訊解說/心得經曆講述 //

投稿須知

稿件需要為原創文章,并标明作者資訊。

我們會選擇部分在深度技術解析及科研心得方向,對使用者啟發更大的文章,做原創性内容獎勵

投稿方式

發送郵件到

[email protected]

或添加從業人員微信(chemn493)投稿,溝通投稿詳情;還可以關注“将門創投”公衆号,背景回複“投稿”二字,獲得投稿說明。

>>> 添加小編微信!

關于我“門”▼

将門是一家以專注于數智核心科技領域的新型創投機構,也是北京市标杆型孵化器。公司緻力于通過連接配接技術與商業,發掘和培育具有全球影響力的科技創新企業,推動企業創新發展與産業更新。

将門成立于2015年底,創始團隊由微軟創投在中國的創始團隊原班人馬建構而成,曾為微軟優選和深度孵化了126家創新的技術型創業公司。

如果您是技術領域的初創企業,不僅想獲得投資,還希望獲得一系列持續性、有價值的投後服務,歡迎發送或者推薦項目給我“門”:

ACL 2023 | 面向資訊檢索的結構感覺語言模型訓練方法

⤵一鍵送你進入TechBeat快樂星球

繼續閱讀