中科大王傑教授：基于表示學習的知識圖譜推理技術

作者 | 維克多

編輯 | 青暮

知識圖譜蘊含豐富的人類先驗知識，具有重要的學術價值和廣泛的應用前景。知識圖譜推理作為知識圖譜領域的核心技術，能夠極大地擴充現有知識的邊界，有力地輔助人類進行智能決策。

2021年12月17日，中國科學技術大學教授，博士生導師，國家優青王傑在 CNCC 2021 “知識為意，圖譜為形--基于圖機器學習的知識推理”專題論壇上做了《基于表示學習的知識圖譜推理技術——從簡單推理到複雜推理》的報告。

在報告中，王傑結合知識圖譜近年來的研究趨勢與應用場景，聚焦從單一圖譜推理到聯合外部資訊推理、從結構化輸入到自然語言輸入的層次遞進的推理場景，介紹基于表示學習的知識圖譜推理方向取得的進展。最後，王傑展望了知識圖譜推理技術未來發展所面臨的若幹挑戰和機遇。

例如，他提到：“目前廣泛使用的資料集無法準确地反映真實場景模型，現在的模型測試時基本采用封閉世界假設，不符合真實應用場景，會導緻本該正确的結果被判斷為錯誤……現有知識圖譜隻涉及文本資訊，未來的發展趨勢是擴充到多模态資訊。多模态知識圖譜依賴于多種模态資料的收集，其中關鍵問題是……”

以下是演講全文，AI科技評論做了有删改的整理：

今天的演講題目是《基于表示學習的知識圖譜推理技術——從簡單推理到複雜推理》，分為背景介紹、簡單推理、複雜推理、未來展望等四個部分。

知識圖譜的本質是大規模的語義網絡知識庫，表示對客觀世界實體的描述。如上圖左下角人物知識圖所示，每一個節點代表一個人物，邊代表人物之間的關系。而在計算機中，知識圖譜以三元組的形式存儲，包含頭實體、關系、尾實體。

我們總希望得到大型的知識圖譜，因為在規模效應的作用下，會給應用效果帶來質變。知識圖譜可以分為兩類，一類是通用知識圖譜，面向通用領域的百科知識庫，另一類是領域知識圖譜，面向特定領域的行業知識庫。

通用知識圖譜覆寫面較廣，但所包含的知識層級體系較淺、粒度較粗、精度不高，領域知識圖譜則相反，其覆寫面較窄，隻面向某個特定領域，包含的知識深度和精度往往有更高的标準和品質。

知識圖譜最早可以追溯到60年代的專家系統，當時主要是依靠專家知識，通過人工進行建構，是以成本較高。經過多年發展，知識圖譜逐漸轉向自動化建構，1998年提出的語義網絡和2006年提出的連結資料是“自動化”發展的關鍵節點。

2012年，谷歌釋出知識圖譜，并将其應用到搜尋引擎當中。這時knowledge graph詞彙第一次被明确提出。目前，谷歌、百度等建構的知識圖譜已經包含超千億級别的三元組，其背後所依賴的是大資料驅動下的自動知識擷取技術。

知識圖譜屬于典型的交叉技術領域，包含衆多的技術要素：存儲、查詢、建構、擷取、推理、融合、問答、分析等等幾個方面。在衆多要素中，推理是核心的技術和任務。

一方面，知識圖譜的存儲、查詢、建構與擷取，不僅僅是為了能夠描述客觀世界、總結人類先驗知識，更重要是為知識圖譜推理服務。

另一方面，知識圖譜中的技術和任務都包含深度語義了解。例如融合技術中，需要利用推理技術對齊不同知識圖譜的實體；問答技術中需要推理技術拓展問句的語義；分析技術中需要推理技術幫助進一步挖掘圖資料中的資訊。

是以，凡包含深度語義了解的任務都涉及推理的過程。而知識圖譜的推理目标是利用知識圖譜中已經存在的關系或事實推斷未知的關系和事實。換句話說，就是由已知的一個或者幾個判斷，推斷另一個未知的判斷。

知識圖譜的推理有兩種形式：基于規則的推理、基于表示學習的推理。基于規則的推理是指基于本體邏輯的演繹推理，例如若A屬于B，B屬于C，則A屬于C。這種推理雖然可解釋性強，精度高，但需要事先寫清楚規則，是以在實際應用中不夠靈活。當涉及大規模資料時，可以使用統計方法總結歸納出規則，這也稱為歸納式的推理。

基于表示學習的推理需要将實體以及實體之間的關系映射到向量空間，然後通過向量空間的操作進行模組化邏輯關系。這種方式易于捕獲隐含的資訊，但卻丢失了可解釋性。

列舉一個基于表示學習的推理的工作原理。上圖中存在兩個三元組：；。将其映射到向量空間之後會發現，中國與北京這兩個向量之間的內插補點，接近美國與華盛頓之間的內插補點。

然後定義一個函數，希望三元組映射到向量空間之後，頭實體+關系的向量表示盡可能接近尾實體的向量表示。如上圖中的f（h,r,t）函數，既可以是Loss函數也可以是打分函數。

打分函數某種程度上是三元組為真的置信度，如上圖右下角的例子所示，根據打分值（置信度）确定“英國的首都是倫敦”。

進一步，根據輸入，基于表示學習的知識圖譜推理分為簡單推理和複雜推理兩類。簡單推理類似連結預測，根據知識圖譜中已有實體和關系推理兩個給定實體的關系，其難點在于了解已有實體和關系的語義。

複雜推理相對于簡單推理，其輸入更加複雜。根據輸入的不同，難點分别在于：

模組化關系間的語義結構，給定實體關系未在訓練模型中出現過。

模組化複雜的結構化問題，包含若幹個一階邏輯。

模組化非結構化問題，輸入資料包含人類口頭語等。

簡單推理最新進展

直覺了解簡單推理，例如有一個頭實體和一個尾實體，然後希望補齊與之對應關系，進而最大可能讓三元組成立。

還是以人物知識圖譜為例，已知（訓練資料）“蔣英的丈夫是錢學森，蔣英的父親是蔣百裡”，請問錢學森和蔣百裡之間是什麼關系？為了較好解決這一連結預測問題，需要對知識圖譜中實體之間的關鍵性質進行模組化。

方式有三：語義近似、語義分層、語義融合。例如老虎是哺乳動物，老虎和獅子語義相近，就可以推理出獅子是哺乳動物；獅子屬于貓科動物，貓科動物屬于哺乳動物，根據語義分層現象可以推理出獅子是哺乳動物；語義融合是指結合知識圖譜以及非知識圖譜的非結構化文本描述，進而捕捉實體的潛在語義。

語義近似

對于語義近似，目前的經典方法是“基于張量分解的知識圖譜嵌入模型”，例如CP、RESCAL、ComplEx等等，此類方法的共同點是三元組為真的機率由内積定義。其存在的問題由上（右）圖所示，在向量空間中相近語義的實體具有不相近的表示。

基于上述缺點，我們提出“面向張量分解的知識圖譜嵌入模型的正則項”，其思想在于讓語義相近的實體表示内積盡可能的大，距離盡可能的小。如上（左）圖所示，除了希望尾實體的向量盡可能落在黃色的虛線上，也希望尾實體的向量表示盡可能地落在橢圓（紅色區域）裡。

如何做到？添加基于對偶距離模型的正則項，用向量差的2範數表示原始内積。将“2範數”展開之後，會發現這一表達式也包含了原始内積，以及後面兩項2範數的平方。最後會得到對偶誘導正則項：由原來的内積+頭實體2範數+尾實體2範數。

通過實驗發現，“對偶誘導正則項”能夠有效促使相近語義實體具有相近表示，也可以顯著提升現有模型的推理性能。此外，它的優點還在于給出了張量核2-範數的一個上界以及矩陣分解問題中迹範數正則的張量推廣。

語義分層

語義分層是廣泛存在的，例如“棕榈樹是樹”，“北京位于中國”。其中樹是更高層級，棕榈樹是更低層級；中國是更高層級，北京是更低層級。如果按語義對實體進行分類，可以分為不同語義層級的實體，例如“哺乳動物”和“狗”，“移動”和“奔跑”；相同語義層級的實體，“玫瑰”和“牡丹”，“貨車”和“客車”。

現有模組化語義層級有兩個傳統工作，利用外部層級資訊輔助模組化，在一些特定的資料集裡，實體和關系本身是帶有層級資訊的。這種方法可以幫助了解實體的語義，但是并不能很好地區分不同層級的實體，最關鍵的是，并不是所有的資料集中都有額外的分層資訊。

還有一類方法主要考慮關系的語義層級，也就是将一個關系抽象成若幹不同層級的子關系的複合，進而達到對語義層級的模組化，但是這類方法需要對關系表示進行額外的聚類操作，其缺點在于無法全自動地從知識圖譜中學到具有層級性質的語義資訊。

為了模組化知識圖譜的語義層級，可以将語義層級模組化成樹結構，如上（左）圖所示，樹結構中節點的深度，能夠反映層級資訊：越靠近根節點的節點，具有越高的層級；而具有相同深度的不同節點，具有相同的層級。

進一步，可以用極坐标模組化樹結構。極坐标由兩部分組成，半徑坐标反映點到原點的距離；角坐标可以用來區分同心圓上的不同位置。是以可以将點到原點的距離視作到根節點的距離，半徑坐标和角坐标就可以分别對應不同層級和相同層級的實體。總而言之，将實體映射到極坐标系中，利用極坐标模組化語義層級，可以利用模長( Modulus)和角度( Phase)兩部分進行模組化。

為了模組化不同實體之間的關系，不同實體模長之間的關系可以模組化成伸縮變換，也就是頭實體的模長乘以關系變換（r）得到尾實體的模長，然後将角度之間的關系模組化為旋轉變化，也即頭實體的角度根據不同的關系旋轉不同的角度後得到尾實體的角度。此類模組化方式可以定義為上（右）圖中的距離函數。

經過實驗，此類方法能夠有效區分實體的語義層級。例如上圖的幾個例子，“CS與AI不同層級”、“ask與inquire相同層級”、“D與C不同層級”都能更清晰地進行分割。此外，頭尾實體層級相同，實驗證明可以利用角度進行區分。而在單步推理測試資料集上，此類方法已經在推理性能上顯著超越其他方法，也被同行評價為“基于幾何的方法中表現最佳的模型”。

語義融合

語義融合需要将圖譜與文本描述進行結合，既涉及結構化資料也涉及非結構化資料，目前該領域還在探索。現有的趨勢是從知識嵌入向知識注入發展，前者是指傳統的KGE模型，僅從結構化的知識圖譜中獲得知識，體量龐大的文本資料不能被充分利用。

而知識注入指KGE模型與預訓練模型協同訓練，能夠有效處理非結構化的資料。但缺陷在于，會由于預訓練模型巨大的傳輸量而帶來高額的計算成本，甚至成本太大而無法協同訓練。

為了解決此問題，我們提出Hetero- Learner：融合異質知識的高效率學習器，将圖譜結構和文本描述嵌入成向量，并進行向量的有機拼接。經過實驗表明，僅以同類模型 KEPLER3.6%的參數量取得 Wikidata5M上的SOTA結果。

為了進一步提升性能，受人類認知推理的啟發，我們提出Hetero- Reasoner。該模型方法“模拟”人類，首先根據推理對象的含義以及推理對象之間的聯系做出判斷和推理（（對應Knowledge Learner）），然後從現象中歸納抽象的邏輯規則來輔助推理（對應Rule Miner），最後會回憶和反刍已有的知識來加強對推理和判斷的信心（對應Knowledge Distiller）。整體而言，該模型包括異質學習器、規則挖掘器和知識蒸餾器三個子產品，能有效地結合有結構的知識圖譜資料和無結構的文本資料進行推理。

最終，在最近一次KDD CUP 2021 大規模知識圖譜比賽的“Link Prediction”賽道榮獲第三名，成為前三名中唯一一支成員均來自高校的隊伍。

複雜推理最新進展

複雜推理主要集中在歸納式推理、多步推理、自然語言查詢三方面的工作。

歸納式的推理和簡單推理有類似之處，都是進行連結預測的任務，但是歸納式推理測試資料集的實體和訓練資料集的實體不重合，是以難點在于如何将訓練資料集的知識遷移或泛化至測試資料集。

歸納式推理的核心在于學習關系的語義結構。例如上圖左邊（紅樓夢）和右邊的知識圖譜中的人物并不重合。但兩者關系确實存在一些共同的特點。例如兩者都符合母親、父親、丈夫關系模式，都可以将其提取與應用。

此類模組化方式的經典方法是基于規則學習的歸納式推理，這是在知識圖譜統計、歸納常出現的關系結構。

我們設計了另一種歸納模式，即首先将原始圖譜的關系變為節點，然後生成新的圖譜，其中關系和關系之間的邊代表兩個相鄰關系的連接配接模式。然後用圖神經網絡訓練以關系為節點的圖，進而找到相關特性。

如上圖所示，此方法在歸納推理性能上顯著超其他方法，相對于現有的方法提升都在5個點甚至10個點左右。

多步推理

複雜結構化問題的輸入對應的複雜推理形式是多步推理。例如，對于查詢任務“列出安徽省内為211但非985高校的校長”，對于這一任務，可以通過傳統建構計算圖方法進行解決，但會遇到結構多樣、與或非邏輯運算等問題，進而帶來非常高的計算複雜度。

再舉例子：在知識圖譜中推理得到中國東部省份的高校，随着推理步驟的進行，實體的數目會從中國節點開始，呈指數級上升。為了解決這一問題，我們提出基于表示學習的方法，在适當的向量空間進行推理。

基于表示學習的多步推理有兩個關鍵的步驟。第一，定義向量空間，第二，在向量空間中定義推理操作。

具體而言，首先将實體和實體的集合映射到向量空間，實體用幾何圖形或者機率分布進行表示，然後在向量空間中通過相似度比較得到答案，進而避免巨大的計算開銷；之後，将推理操作定義為實體集合之間的變換，例如“與”對應實體集合的交；“或”對應實體集合的并；“非”對應實體集合的補。

是以，在基于表示學習的多步推理模型中，給定問題結構，通過邏輯操作得到最終問題表示，然後通過實體表示和問題表示之間的距離，得到最終問題的答案。

一般而言，問題答案是實體的集合，問題表示本質上是實體集合的表示。是以如何表示問題的集合就變得非常重要。傳統方法是使用“盒子”表示查詢，它雖然可以進行邏輯運算，但難以模組化“非”關系。

我們提出ConeE, 二維錐(Cone)構成的向量空間。将實體定義為幅角為0，将集合定義為幅角不為0。由于錐體具有封閉性，是以容易進行“與或非”操作。目前，此項工作在多跳推理性能上顯著超越其他方法。

自然語言查詢

自然語言查詢的難點在模組化非結構化問題，其任務針對給定的自然語言問題作為輸入（差別于結構化查詢），通過知識圖譜多跳推理的方式給出答案。但随着問題跳數增加，候選實體數量呈指數增長。現有的GNN方法通過子圖裁剪以降低候選實體數量但犧牲了正确答案的召回率。

為此，受人類認知理論啟發，我們提出兩階段方法。第一階段對應系統1（無意識、直覺的、快思考），快速篩選，通過query-answer語義比對打分；第二階段對應系統2（有意識、邏輯的、慢思考），通過貝葉斯網絡，基于推理路徑的打分。

在問題“John Derek 參演電影的編輯有哪些？”中，運用我們設計方法的結果如所示，留下的實體相對而言數量比較少，而且置信度較高。進一步實驗表明，我們的方法在多跳資料集上性能顯著超越之前的SOTA方法。

未來展望

在知識圖譜上進行推理，除了基于表示學習的方法之外，還有一種基于規則的方法。雖然基于表示學習相比規則推理的方法，可以更好地模組化知識圖譜中的潛在語義資訊，但在真實的應用場景中，規則推理往往更受歡迎。原因是：它的精度高，可解釋性強。是以，接下來，學術界的目标應該是使表示學習推理模型在真實場景下的性能與規則推理模型媲美。

另一方面，學術界模型評測應更加全面高效，以指導模型的設計使之更契合真實場景的需求。下面我從資料集和評測名額兩方面進行讨論。

首先，目前廣泛使用的資料集無法準确地反映真實場景模型，現有的模型測試時基本采用封閉世界假設，即不在知識圖譜中的三元組都是錯誤的，這顯然不符合真實應用場景，是以會導緻本該正确的結果被判斷為錯誤。是以，如何用“候選資料集”的性能客觀反映模型性能，需要進一步探索。

再者，目前廣泛使用的評測名額無法全面評估模型的優劣。例如，測試集中正确三元組的排名越高，模型在這些評測名額上的表現就越好。然而，這是不全面的。此外，在封閉世界假設下，一些本應性能較好的模型在這些名額下也可能會有較差的表現。

現有知識圖譜隻涉及文本資訊，未來發展趨勢是擴充到多模态資訊。多模态知識圖譜的建構，依賴于多種模态資料的收集，其中關鍵問題是：如何進行不同模态資料之間的對齊。此外，也需要高性能的資料庫，幫助存儲多模态資料，目前這方面國内已經有企業開始攻關。

知識圖譜和預訓練語言模型的結合也是接下來的發展趨勢。預訓練語言模型已經比較成熟，但在涉及特定領域的知識或者常識時，表現并不令人滿意。如何利用知識圖譜增強預訓練語言模型，或者怎樣用預訓練語言模型幫助更好地在知識圖譜上進行推理，也是接下來需要重點關注的方向。

最後，知識圖譜與對話場景的結合也是我所期待的。用時序知識圖譜表示對話狀态，相比傳統鍵值對的結構，可以更完整地跟蹤表示對話的狀态以及變化。

中科大王傑教授：基于表示學習的知識圖譜推理技術

繼續閱讀

謝霆鋒終于不再背鍋，王傑“毒啞之謎”被曝光，換作誰都無法承受

王傑，出演過的經典影視劇

紅色故事繪——強軍偉業專題|今日推薦連環畫《英雄王傑》

王傑毒啞之謎真相大白，謝霆鋒洗刷冤屈，真相這誰受得了

王傑飛：初心醬酒的【釀造初心】

謝霆鋒終于不用再背鍋，王傑“毒啞之謎”揭開後，換誰來也受不了

當紅時期被謝霆鋒下毒？後無奈退出歌壇，58歲的王傑今怎樣了

謝霆鋒不用再背鍋，王傑“毒啞之謎”，到底怎麼回事？

王傑：被母親打到急救、拆散婚姻、算計财産，此生不再相見

王傑前女友方文琳曝分手内幕！為了王傑願退出娛樂圈，當後媽都行

59歲台灣玉女掌門人自曝迷戀王傑，不惜做後母，與王傑單身多年

她是“飛鷹三姝”成員，曾因癡戀王傑願當繼母，如今還完20年房貸

1937年忻口血戰連載243，王傑仁回憶大白水生死戰

要不是親身經曆，誰會相信世上還有這樣的好人，病人的溫暖，病人的救星！破屋偏逢連陰雨，船到險灘浪打來。真是黃㹨專咬跛腿雞，

560餘名師生走進王傑部隊，同上一堂國防思政課

讀創文彙|遍插茱萸少一人(作者:王傑)