NLP如何突破深度學習的能力邊界？

1. 背景

從本質上可以知道，語言就是一套邏輯符号，這意味着NLP處理的輸入是高度抽象并且離散的符号，它跳過了感覺的過程，而直接關注各種抽象概念，語義和邏輯推理。正是由于NLP涉及到高層語義、記憶、知識抽象以及邏輯推理等複雜的認知特性，導緻基于資料驅動和統計學習的深度學習模型在NLP領域遇到了比較大的瓶頸。可以不誇張的說，NLP中複雜的認知特性已經完全超出了深度學習的能力邊界。那如何打破這個魔咒，突破深度學習的能力邊界，進而實作感覺智能到認知智能的關鍵跨越呢？這正是本文需要探索的原因所在，可能的一條出路就是通過對非結構化的資料(如業務的資料，産品的資料，行業領域的資料)進行整合和知識蒸餾，進而變成結構化的業務知識，結構化産品的知識，結構化的行業領域知識，在這些結構化的知識的基礎上，再運用深度學習的模型進行推理，實作知識驅動,再進一步進階到基于推理的驅動，這樣就會形成結構化的知識推理引擎，進而提高整個智能系統的認知能力。那知識圖譜就是将非結構的資料進行提煉歸納成結構化的知識的基礎設施，圖神經網絡GNN就是在知識圖譜基礎設施上的推理模型。一句話概括就是：用不确定的眼光看待世界，再用确定的結構化知識來消除這種不确定性。

2.知識圖譜

在介紹知識圖譜之前，先得弄清楚什麼是知識？知識是從大量有意義的資料中歸納總結出來的，是從有意義資料中壓縮、提煉，進而形成有價值的規律。比如，天文學家日夜觀察各種行星的位置，及對應的時間，這些都是觀察的資料，但是牛頓從這些觀察的資料中發現了萬有引力定律，這就是知識。就像後來的天文學家運用牛頓的萬有引力定律這個有價值的知識，發現了更多的未知星體和宇宙的奧秘，知識也将大大的加強智能系統的認知能力，也将使智能系統走向更深的未知領域。知識圖譜就是對知識進行存儲，表示，抽取，融合，推理的基礎設施。

建設一個知識圖譜系統，需要包括：知識模組化、知識擷取、知識融合、知識存儲、知識模型挖掘和知識應用6大部分：

1、知識schema模組化：建構多層級知識體系，将抽象的知識、屬性、關聯關系等資訊，進行定義、組織、管理，轉化成現實的知識庫。

2、知識抽取：将不同來源、不同結構的資料轉化成圖譜資料，包括結構化資料、半結構化資料（解析）、知識标引、知識推理等，保障資料的有效性和完整性。

3、知識融合：由于知識圖譜中的知識來源廣泛，存在知識品質良莠不齊、來自不同資料源的知識重複、知識間的關聯不夠明确等問題，是以必須要進行知識的融合。知識融合是高層次的知識組織，使來自不同知識源的知識在同一架構規範下進行異構資料整合、消歧、加工、推理驗證、更新等步驟，達到資料、資訊、方法、經驗以及人的思想的融合，形成高品質的知識庫。

4、知識存儲：根據業務特點以及知識規模選擇合适的存儲方式将融合後的知識進行持久化儲存。

5、知識模型挖掘：知識的分布式表示學習，通過圖挖掘相關算法進行知識推理出新知識，關聯規則挖掘一些隐藏知識。

6、知識應用：為已建構知識圖譜提供圖譜檢索、知識計算、圖譜可視化等分析與應用能力。并提供各類知識運算的API，包含圖譜基礎應用類、圖結構分析類、圖譜語義應用類、自然語言處理類、圖資料擷取類、圖譜統計類等等。

說這麼多知識圖譜的概念，可能這些概念有些抽象，這裡給出一個實際的關務hscode領域的知識圖譜的例子：

3.圖神經網絡GNN

知識圖譜将按照歐式空間分布的的文本、圖檔、時間序列等資料進行歸納融合，提煉出了按照非歐空間的圖結構來存儲結構化知識。圖結構的複雜性對傳統的深度學習算法提出了重大挑戰，主要是因為非歐空間的圖結構資料是不規則的。每個圖都有無固定數量的節點，同時圖中的每個節點都有不同數量的鄰居節點，這就導緻傳統深度學習的卷積操作不能在圖結構上有效的計算。同時，傳統深度學習算法的一個核心假設是樣本執行個體彼此獨立，如兩張關于貓的圖檔是完全獨立的。然而，對于圖結構資料來說，情況并非如此，圖中的節點通過邊的連接配接資訊，使節點之間有機的組合起來，進而天然構造了功能強大的結構性feature。另外，業界公認的傳統的深度學習的一大軟肋是無法有效的進行因果推理，隻能進行某種意義上的統計相關性推理，這就大大降低了智能系統的認知能力。針對上述傳統深度學習算法在圖結構資料和因果推理上的天然軟肋，業界最近興起了針對圖結構資料模組化和因果推理的新方向-圖神經網絡GNN。

3.1 圖卷積網絡GCN基本原理

圖卷積神經網絡GCN是目前最重要的圖神經網絡，本文落地的圖神經網絡也是基于圖卷積神經網絡GCN。圖卷積神經網絡GCN本質上是基于Message-Passing的資訊傳遞式的通用架構，是由多層的圖卷積操作組成，每一個圖卷積層僅處理一階鄰域資訊，通過疊加若幹圖卷積層可以實作多階鄰域的資訊傳遞。基于Message-Passing的圖神經網絡有以下三個基本公式構成：

對應的符号解釋如下：

幾乎所有的GNN模型的底層運作機制都是基于上述三個公式，隻不過不同的AGGREGATE,COMBINE,READOUT的實作政策不同，導緻演化成了GCN,GAT,GraphSAGE等不同類型的圖神經網絡。

3.2 圖卷積網絡GCN的AGGREGATE計算方式

圖卷積網絡GCN中的AGGREGATE是将GCN的每一層通過鄰接矩陣A和特征向量 ,相乘得到每個頂點鄰居特征的彙總，然後再乘上一個參數矩陣 , 加上激活函數σ,做一次非線性變換得到聚合鄰接頂點特征的矩陣。基本公式如下：