天天看點

知識圖譜 | 從六個方面解析知識圖譜的價值和應用

知識圖譜 | 從六個方面解析知識圖譜的價值和應用
知識對于人工智能的價值就在于,讓機器具備認知能力和了解能力。建構知識圖譜這個過程的本質,就是讓機器形成認知能力,了解這個世界。      

一、知識圖譜無處不在

說到人工智能技術,人們首先會聯想到深度學習、機器學習技術;談到人工智能應用,人們很可能會馬上想起語音助理、自動駕駛等等,各行各業都在研發底層技術和尋求AI場景,卻忽視了當下最時髦也很重要的AI技術:知識圖譜。

當我們進行搜尋時,搜尋結果右側的聯想,來自于知識圖譜技術的應用。我們幾乎每天都會接收到各種各樣的推薦資訊,從新聞、購物到吃飯、娛樂。

個性化推薦作為一種資訊過濾的重要手段,可以依據我們的習慣和愛好推薦合适的服務,也來自于知識圖譜技術的應用。搜尋、地圖、個性化推薦、網際網路、風控、銀行……越來越多的應用場景,都越來越依賴知識圖譜。

二、知識圖譜與人工智能的關系

知識圖譜用節點和關系所組成的圖譜,為真實世界的各個場景直覺地模組化。通過不同知識的關聯性形成一個網狀的知識結構,對機器來說就是圖譜。

形成知識圖譜的過程本質是在建立認知、了解世界、了解應用的行業或者說領域。每個人都有自己的知識面,或者說知識結構,本質就是不同的知識圖譜。正是因為有擷取和形成知識的能力,人類才可以不斷進步。

知識圖譜對于人工智能的重要價值在于,知識是人工智能的基石。機器可以模仿人類的視覺、聽覺等感覺能力,但這種感覺能力不是人類的專屬,動物也具備感覺能力,甚至某些感覺能力比人類更強,比如:狗的嗅覺。

而“認知語言是人差別于其他動物的能力,同時,知識也使人不斷地進步,不斷地凝練、傳承知識,是推動人不斷進步的重要基礎。” 知識對于人工智能的價值就在于,讓機器具備認知能力。

而建構知識圖譜這個過程的本質,就是讓機器形成認知能力,去了解這個世界。

知識圖譜 | 從六個方面解析知識圖譜的價值和應用

三、圖資料庫

知識圖譜的圖存儲在圖資料庫(Graph Database)中,圖資料庫以圖論為理論基礎,圖論中圖的基本元素是節點和邊,在圖資料庫中對應的就是節點和關系。用節點和關系所組成的圖,為真實世界直覺地模組化,支援百億量級甚至千億量級規模的巨型圖的高效關系運算和複雜關系分析。

目前市面上較為流行的圖資料庫有:Neo4j、Orient DB、Titan、Flock DB、Allegro Graph等。不同于關系型資料庫,一修改便容易“牽一發而動全身”圖資料庫可實作資料間的“互聯互通”,與傳統的關系型資料庫相比,圖資料庫更擅長建立複雜的關系網絡。

圖資料庫将原本沒有聯系的資料連通,将離散的資料整合在一起,進而提供更有價值的決策支援。

四、知識圖譜的價值

知識圖譜用節點和關系所組成的圖譜,為真實世界的各個場景直覺地模組化,運用“圖”這種基礎性、通用性的“語言”,“高保真”地表達這個多姿多彩世界的各種關系,并且非常直覺、自然、直接和高效,不需要中間過程的轉換和處理——這種中間過程的轉換和處理,往往把問題複雜化,或者遺漏掉很多有價值的資訊。

在風控領域中,知識圖譜産品為精準揭露“欺詐環”、“窩案”、“中介造假”、“洗錢”和其他複雜的欺詐手法,提供了新的方法和工具。盡管沒有完美的反欺詐措施,但通過超越單個資料點并讓多個節點進行聯系,仍能發現一些隐藏資訊,找到欺詐者的漏洞,通常這些看似正常不過的聯系(關系),常常被我們忽視,但又是最有價值的反欺詐線索和風險突破口。

盡管各個風險場景的業務風險不同,其欺詐方式也不同,但都有一個非常重要的共同點——欺詐依賴于資訊不對稱和間接層,且它們可以通過知識圖譜的關聯分析被揭示出來,進階欺詐也難以“隐身”。

凡是有關系的地方都可以用到知識圖譜,事實上,知識圖譜已經成功俘獲了大量客戶,且客戶數量和應用領域還在不斷增長中,包括沃爾瑪、領英、阿迪達斯、惠普、FT金融時報等知名企業和機構。

目前知識圖譜産品的客戶行業,分類主要集中在:社交網絡、人力資源與招聘、金融、保險、零售、廣告、物流、通信、IT、制造業、傳媒、醫療、電子商務和物流等領域。在風控領域中,知識圖譜類産品主要應用于反欺詐、反洗錢、網際網路授信、保險欺詐、銀行欺詐、電商欺詐、項目審計作假、企業關系分析、罪犯追蹤等場景中。

那相比傳統資料存儲和計算方式,知識圖譜的優勢顯現在哪裡呢?

(1)關系的表達能力強

傳統資料庫通常通過表格、字段等方式進行讀取,而關系的層級及表達方式多種多樣,且基于圖論和機率圖模型,可以處理複雜多樣的關聯分析,滿足企業各種角色關系的分析和管理需要。

(2)像人類思考一樣去做分析

基于知識圖譜的互動探索式分析,可以模拟人的思考過程去發現、求證、推理,業務人員自己就可以完成全部過程,不需要專業人員的協助。

(3)知識學習

利用互動式機器學習技術,支援根據推理、糾錯、标注等互動動作的學習功能,不斷沉澱知識邏輯和模型,提高系統智能性,将知識沉澱在企業内部,降低對經驗的依賴。

(4)高速回報

圖式的資料存儲方式,相比傳統存儲方式,資料調取速度更快,圖庫可計算超過百萬潛在的實體的屬性分布,可實作秒級傳回結果,真正實作人機互動的實時響應,讓使用者可以做到即時決策。

五、知識圖譜的主要技術

5.1 知識模組化

知識模組化,即為知識和資料進行抽象模組化,主要包括以下5個步驟:

  • 以節點為主體目标,實作對不同來源的資料進行映射與合并。(确定節點)
  • 利用屬性來表示不同資料源中針對節點的描述,形成對節點的全方位描述。(确定節點屬性、标簽)
  • 利用關系來描述各類抽象模組化成節點的資料之間的關聯關系,進而支援關聯分析。(圖設計)
  • 通過節點連結技術,實作圍繞節點的多種類型資料的關聯存儲。(節點連結)
  • 使用事件機制描述客觀世界中動态發展,展現事件與節點間的關聯,并利用時序描述事件的發展狀況。(動态事件描述)

5.2 知識擷取

從不同來源、不同結構的資料中進行知識提取,形成知識存入到知識圖譜,這一過程我們稱為知識擷取。針對不同種類的資料,我們會利用不同的技術進行提取。

從結構化資料庫中擷取知識:D2R。

難點:複雜表資料的處理。

從連結資料中擷取知識:圖映射。

難點:資料對齊。

從半結構化(網站)資料中擷取知識:使用包裝器。

難點:友善的包裝器定義方法,包裝器自動生成、更新與維護。

從文本中擷取知識:資訊抽取。

難點:結果的準确率與覆寫率。

知識圖譜 | 從六個方面解析知識圖譜的價值和應用

5.3 知識融合

如果知識圖譜的資料源來自不同資料結構的資料源,在系統已經從不同的資料源把不同結構的資料提取知識之後,接下來要做的是把它們融合成一個統一的知識圖譜,這時候需要用到知識融合的技術(如果知識圖譜的資料結構均為結構化資料,或某種單一模式的資料結構,則無需用到知識融合技術)。

知識融合主要分為資料模式層融合和資料層融合,分别用的技術如下:

  • 資料模式層融合:概念合并、概念上下位關系合并、概念的屬性定義合并。
  • 資料層融合:節點合并、節點屬性融合、沖突檢測與解決(如某一節點的資料來源有:豆瓣短文、資料庫、網頁爬蟲等,需要将不同資料來源的同一節點進行資料層的融合)。

由于行業知識圖譜的資料模式通常采用自頂向下(由專家建立)和自底向上(從現有的行業标準轉化,從現有高品質資料源(如百科)轉化)結合的方式,在模式層基本都經過人工的校驗,保證了可靠性,是以,知識融合的關鍵任務在資料層的融合。

5.4 知識存儲

圖譜的資料存儲既需要完成基本的資料存儲,同時也要能支援上層的知識推理、知識快速查詢、圖實時計算等應用,是以需要存儲以下資訊:三元組(由開始節點、關系、結束節點三個元素組成)知識的存儲、事件資訊的存儲、時态資訊的存儲、使用知識圖譜組織的資料的存儲。

其關鍵技術和難點就在于:

  • 大規模三元組資料的存儲;
  • 知識圖譜組織的大資料的存儲;
  • 事件與時态資訊的存儲;
  • 快速推理與圖計算的支援。

5.5 知識計算

知識計算主要是在知識圖譜中知識和資料的基礎上,通過各種算法,發現其中顯式的或隐含的知識、模式或規則等,知識計算的範疇非常大,這裡主要講三個方面:

  • 圖挖掘計算:基于圖論的相關算法,實作對圖譜的探索和挖掘。
  • 本體推理:使用本體推理進行新知識發現或沖突檢測。
  • 基于規則的推理:使用規則引擎,編寫相應的業務規則,通過推理輔助業務決策。

5.6 圖挖掘和圖計算

知識圖譜之上的圖挖掘和計算主要分以下6類:

  • 第一是圖周遊,知識圖譜建構完之後可以了解為是一張很大的圖,怎麼去查詢周遊這個圖,要根據圖的特點和應用的場景進行周遊;
  • 第二是圖裡面經典的算法,如最短路徑;
  • 第三是路徑的探尋,即給定兩個實體或多個實體去發現他們之間的關系;
  • 第四是權威節點的分析,這在社交網絡分析中用的比較多;
  • 第五是族群分析;
  • 第六是相似節點的發現。

5.7 可視化技術

目前兩個比較常見的可視化工具是:D3.js和ECharts。

  • D3.js:全稱Data-Driven Documents,是一個用動态圖形顯示資料的JavaScript庫,一個資料可視化工具,它提供了各種簡單易用的函數,大大友善了資料可視化的工作。
  • ECharts:是一款由百度前端技術部開發的,同樣基于Javascript的資料可視化圖示庫。它提供大量常用的資料可視化圖表,底層基于ZRender(一個全新的輕量級canvas類庫),建立了坐标系、圖例、提示、工具箱等基礎元件,并在此上建構出折線圖(區域圖)、柱狀圖(條狀圖)、散點圖(氣泡圖)、餅圖(環形圖)、K線圖、地圖、力導向布局圖以及和弦圖,同時支援任意次元的堆積和多圖表混合展現。

六、知識圖譜的應用

知識圖譜的應用場景很多,除了問答、搜尋和個性化推薦外,在不同行業不同領域也有廣泛應用,以下列舉幾個目前比較常見的應用場景。

6.1 信用卡申請反欺詐圖譜

6.1.1 欺詐手法

銀行信用卡的申請欺詐包括個人欺詐、團夥欺詐、中介包裝、僞冒資料等,是指申請者使用本人身份或他人身份或編造、僞造虛假身份進行申請信用卡、申請貸款、透支欺詐等欺詐行為。

欺詐者一般會共用合法聯系人的一部分資訊,如電話号碼、聯系位址、聯系人手機号等,并通過它們的不同組合建立多個合成身份。比如:3個人僅通過共用電話和位址兩個資訊,可以合成9個假名身份,每個合成身份假設有5個賬戶,總共約45個賬戶。假設每個賬戶的信用等級為20000元,那麼銀行的損失可能高達900000元。

由于擁有共用的資訊,欺詐者通過這些資訊構成欺詐環。

一開始,欺詐環中的賬戶使用正常,欺詐者會進行正常的購買、支付和還款行為,這種行為稱為“養卡”。“養卡”了一段時間後,信用額度會有所增加,随着時間推移會增長到一個讓欺詐者相對“滿意”的額度。

突然有一天欺詐環“消失”了,環内成員都最大化地使用完信用額度後跑路了。

6.1.2 知識圖譜解決信用卡申請反欺詐問題

使用傳統的關系資料庫,來揭露欺詐環需要技術人員執行一系列的複雜連接配接和自連接配接,而且查詢建構起來非常複雜,查詢效率低、速度慢且成本高。

知識圖譜産品利用圖資料庫的天然優勢,直接将銀行欺詐環節可能涉及的所有有用的資料字段:如申請号、賬戶、身份證、手機、位址、家庭電話、聯系人、裝置指紋等設計成圖譜的節點,定義好圖譜所需的所有節點和節點屬性後,定義兩兩節點間的關系。

如:申請号節點與裝置指紋節點相連構成“申請裝置”關系,人節點與位址節點相連構成“申請人位址”關系。

根據業務上設計好的圖譜進行建圖,建圖後,使用者可以直接在關聯圖譜平台上,輸入某個節點值查詢節點的關聯資訊,如:輸入某個黑手機号,看其關聯5層範圍内的涉及到的申請人資訊,看該節點是否與其他節點關聯成欺詐環,看節點與曆史的黑節點間是否有過關聯等等。

使用者可借助知識圖譜産品,在貸前防禦風險,貸中進行關聯分析找出可疑點,控制風險,貸後進行風險把關,讓損失降到最低。

6.2 企業知識圖譜

目前金融證券領域,應用主要側重于企業知識圖譜。企業資料包括:企業基礎資料、投資關系、任職關系、企業專利資料、企業招投标資料、企業招聘資料、企業訴訟資料、企業失信資料、企業新聞資料等。

利用知識圖譜融合以上企業資料,可以建構企業知識圖譜,并在企業知識圖譜之上利用圖譜的特性,針對金融業務場景有一系列的圖譜應用,舉例如下:

(1)企業風險評估

基于企業的基礎資訊、投資關系、訴訟、失信等多元度關聯資料,利用圖計算等方法建構科學、嚴謹的企業風險評估體系,有效規避潛在的經營風險與資金風險。

(2)企業社交圖譜查詢

基于投資、任職、專利、招投标、涉訴關系以目标企業為核心向外層層擴散,形成一個網絡關系圖,直覺立體展現企業關聯。

(3)企業最終控制人查詢

基于股權投資關系尋找持股比例最大的股東,最終追溯至某自然人或國有資産管理部門。

(4)企業之間路徑發現

在基于股權、任職、專利、招投标、涉訴等關系形成的網絡關系中,查詢企業之間的最短關系路徑,衡量企業之間的聯系密切度。

(5)初創企業融資發展曆程

基于企業知識圖譜中的投融資事件發生的時間順序,記錄企業的融資發展曆程。

(6)上市企業智能問答

使用者可以通過輸入自然語言問題,系統直接給出使用者想要的答案。

6.3 交易知識圖譜

金融交易知識圖譜在企業知識圖譜之上,增加交易客戶資料、客戶之間的關系資料以及交易行為資料等,利用圖挖掘技術,包括很多業務相關的規則,來分析實體與實體之間的關聯關系,最終形成金融領域的交易知識圖譜。

在銀行交易反欺詐方面,可以從從身份證,手機号、裝置指紋、IP等多重次元對持卡人的曆史交易資訊進行自動化關聯分析,關聯分析出可疑人員和可疑交易。

6.4 反洗錢知識圖譜

對于反洗錢或電信詐騙場景,知識圖譜可精準追蹤卡卡間的交易路徑,從源頭的賬戶/卡号/商戶等關聯至最後收款方,識别洗錢/套現路徑和可疑人員,并通過可疑人員的交易軌迹,層層關聯,分析得到更多可疑人員、賬戶、商戶或卡号等實體。

6.5 信貸/消費貸知識圖譜

對于網際網路信貸、消費貸、小額現金貸等場景,知識圖譜可從身份證、手機号、緊急聯系人手機号、裝置指紋、家庭位址、辦公位址、IP等多重次元對申請人的申請資訊,進行自動化關聯分析,通過關系關系并結合規則,識别圖中異常資訊,有效判别申請人資訊真實性和可靠性。

6.6 内控知識圖譜

在内控場景的經典案例裡,中介人員通過制造或利用對方資訊的不對稱,将企業存款從銀行偷偷轉移,在企業負責人不知情的情況下,中介已把企業存在銀行的全部存款轉移并消失不見。通過建立企業知識圖譜,可将資訊實時互通,發現一些隐藏資訊,尋找欺詐漏洞,找出資金流向。