
今天的分享分為以下幾個部分,知識圖譜的實作基礎、理論基礎和技術基礎,還包括三個案例,跟金融都是相關的。
首先講的是實作基礎,這個時間軸貫穿于知識圖譜的前世今生,發展到今天大概50-60年,其中最早誕生的是語義網絡。語義網絡可以了解為,現存的詞彙都是可以串聯起來的,比如說“麻雀是鳥,朱鹮也是一種鳥,朱鹮又是國家一級保護動物,一級國家保護動物包括揚子鳄、大熊貓。大熊貓本身又是哺乳動物。”這樣就可以對某一領域的知識甚至是全領域的知識,可以通過網絡的方式進行連結,這樣就建構了一個語義網絡,它是對知識表示的奠基。
到了80年代,人工智能領域又把哲學中的本體論引入進來,剛才講到的“麻雀”、“鳥”和“朱鹮”等等,需要辨別哪些是主體,這樣就引進了本體論。接下來網際網路的誕生,從網際網路誕生到超文本的連結,像維基百科,使得網際網路把資料連結起來,出現了資料連結這樣非常重要的跨越。
這樣非常重要的三段曆程,語義網絡本體論,以及從文本連結到資料連結,成為構成知識網絡的基礎。Google在2012年推出了全世界第一款知識圖譜的産品。
google對于知識圖譜有一個非常重要的定義,things not strings。過去人們通過搜尋引擎擷取大量資訊,其中相當多是我們不想要的,當然也包括廣告,甚至有一些噪音。比如搜尋“貴州茅台”,實際上關注的是這隻股票,希望在檢索的時候更精準的告訴我們想要的,不要有太多臃腫的知識。Google在自己的知識圖譜裡就是這樣去建構的。ppt右下角,在檢索貴州茅台,會有一個簡單的知識庫的總結,包括實時股價,歸屬,總資産規模,包括子公司等等。更加精準定義我們想要的東西,展現字元串背後隐含的對象和事物。我們的目标就是洞察語義。
簡單回顧了曆史,講了一下知識圖譜的實作基礎,接下來回顧知識圖譜的理論基礎。知識圖譜中很重要的一點就是知識,知識從何而來。過去知識的擷取主要有三種方式。第一種是進化,更多的是人與自然的互馴,在互相馴化的過程中,适者生存,把最先進的知識傳承下去。第二種是經驗,經驗是日常生活中司空見慣的方式,例如“一朝被蛇咬,十年怕井繩”,這就是一個典型的經驗。第三種是文化傳承,從古代的圖騰到近現代的文字、書籍和影像資料等,更廣泛的讓我們擷取知識和傳承知識的方式。
到了近現代,除了前三種方式之外,又有了計算機這種新的方式,計算機能幫我們擷取知識、存儲知識、傳播知識、了解知識。了解知識就是廣義上講的機器學習,包括人工智能。
在計算機去發現知識的方向,過去被廣泛研究的主要是五種方式。第一種方式是填補現有知識的空白,比如填字遊戲,根據字母的排列關系把答案填補上去。第二種方式是模仿大腦,例如現在比較火的神經網絡,用機器去建構神經元。第三種方式是模拟進化,主要用在機器人的領域,讓機器人通過自學習自疊代的方式去成長。第四種方式是系統性的減少不确定性,說白了就是統計學,ppt右上角是典型的貝葉斯定理。第五種方式是注意新舊知識之間的相似性,類似svm,精準的去找到一個二分類的方法。
做一下總結,發現知識有五種方式,相對應的是五大學派。統計學就是貝葉斯學派,svm就是類推學派,模拟進化就是進化生物學學派,模仿大腦的就是聯結學派,神經網絡分支。填補現有知識空白是符号學派。其中的理論依據,還是根據基礎學科去做借鑒,比如說統計學、心理學、生物學、腦科學和哲學,同樣用到了很多算法,比如貝葉斯分類器,内推學派主要是svm核心機,進化學派主要是遺傳編碼,神經學派主要是反向傳播,符号學派是逆向演繹。
對應的應用場景,統計學用在風險控制的場景,支援向量機用在推薦類的場景,生物學主要是機器人場景,神經網絡用在深度學習,符号學派有很多專家系統的應用。
關于五大學派,有一本書叫終極算法,不同的學派在某個領域去解決不同的問題,有沒有一種終極算法把這五個合并在一起?可以參考下這本書。
五個學派,模仿人的大腦,模仿人的心,模仿人的智。其實知識圖譜關注的是人類的語言思考以及推理,如何通過機器的方式來實作,構成了知識圖譜的理論基礎。
剛講了理論基礎,這裡講講技術,這裡用了 nlp的圖檔,知識圖譜主要還是在自然語言處理的領域。
這是我總結的知識圖譜全棧,從底層到上層有四層。
最底層是理論層,理論層就是剛才提到的幾個比較關鍵的點,比如說本體論、語義網絡、語義超連結、資料連結以及知識庫。
在資料層,舉例的都是一些通用的資料源,比如說freebase,這個是google收購了,knowledge vault,這個是google開放的知識圖譜庫,包括維基資料,imagenet等,這些都是公開的,大家從網上能夠查到。
實作層,大概分成六個步驟,分别是知識擷取、知識抽取、知識融合、知識存儲、知識推理、知識模組化和知識發現,知識擷取是擷取外部資料的方式,包括爬蟲和實時入庫的技術方法;知識抽取就是,對三元組進行知識的抽取,包括實體抽取、關系抽取和屬性的抽取;知識融合就是,抽取出來之後,存在很多的資料備援和噪聲,要去做實體的消歧,資料的整合;知識存儲,剛才講了,實際是要建構一個三元組RDF的資料結構,如果把所有的頂點和邊構造出來之後,要對他進行圖資料庫的存儲;知識推理,剛才也講到了,如果要做一些深層次的知識問答,就要做很多的訓練,無論有監督的還是半監督的;知識模組化更多的是去了解語義,涉及到屬性的映射,實體的連接配接;知識發現,兩大主要的應用是知識的檢索和知識的問答。這些建構了知識圖譜的實作層。
再往上就是應用領域,大概分成兩個方向,一個是通用領域,比如搜尋引擎、機器人和物聯網等等。在專業領域基本都是行業,例如交通、能源、金融,包括醫療健康。
剛才講的是技術的全棧,這裡是解決方案建構的實作路徑。首先就是知識的采集和擷取。現在的資料無非兩塊,内部資料和外部資料。對于外部資料,入庫後要做知識的抽取,主要是對三元組的抽取,實體關系和屬性的抽取。對抽取的知識可以去建構一個簡單的搜尋引擎應用。把自然語言處理結合進來之後,就要對知識進行消岐和補全,如果有一些行業屬性資料,要從這裡去做補全。融合之後的資料,首先放在類似ES的存儲裡邊,通過知識表示,一方面去建構搜尋引擎,再一個就是結合知識推理,對知識問答類的應用去産品化,例如siri、微軟小冰和小米音箱。在知識推理這塊,更多的用到了符号學和類推學的算法去實作。對知識表示化後的資料進行深加工,去做關系抽取、屬性映射、實體連接配接,可以把頂點和邊全部結構化,存儲在圖資料庫裡。建構了自己的圖資料庫,可以為行業做一些專用的知識圖譜,比如企業族譜、證券的智能投研和監管科技。
剛才提到了知識圖譜的一些資料源,這裡也摘錄了一些資訊,比如freebase,Google的knowledge vault等。
剛才講了知識圖譜的建構步驟,對幾個比較抽象的步驟做展開。第一個就是知識抽取,知識抽取就是自然語言了解和知識表示的結合。剛才提到了自然語言處理兩個非常重要的步驟,第一個就是文本的預處理,涉及到資料的清理、降噪、資料的內建、資料的離散化;第二個步驟,就是做分詞、做标注,更深入一點的是做文法的解析和依存度的解析,這個層面實作後做三元組的抽取。把關系、實體和屬性抽取出來。再後邊就是知識表示,實作關系、實體和屬性之間的關聯,建構三元組。
剛才多次提到三元組,到底什麼是三元組,一部分是一些概念、實體、語義、内容、屬性。 我們對于語言的了解,主要還是通過主謂賓的方式去建構,主謂賓就是典型的一個三元組,把它應用到知識圖譜就是RDF。RDF有非常多的建構方式,下面舉了兩種例子。一種是實體、關系、實體的方式,一種是實體、屬性、屬性值的方式。舉個例子,某某法人京東,建構了一個非常簡單的三元組,可以了解某某是京東的法人。
舉一個小的案例,這是我們幫一個券商做的企業族譜,如何把上市公司任職的高管關系全部周遊出來,從源資料庫抽取三張表,分别是高管資訊表、任職表、公司資訊表。這樣就可以把對應的高管字段、高管任職的字段以及所在的公司屬性字段抽取出來,建構成高管任職關系的三元組。
某某和所有有資金關聯的公司,全部都在上面,有些是法人關系,有些是财務投資,有些是并購,有些是控股。
這是我們幫券商做的應用,每個人都有自己的股票app,當我們去購買某一個個股的時候,個股對應的公司所在的行業,對應的關聯公司,以及個股所在的闆塊,闆塊對應的上市公司個股,都可以建構為知識圖譜通過app推送給客戶。假設使用者購買的是“蘇甯雲商”個股,可以看到行業屬性裡,會把“京東”個股關聯進來,它們都屬于網際網路電商行業。“蘇甯”物流這塊就會跟順豐關聯起來。“蘇甯”本身所處的闆塊有家電背景,會跟美的、格力關聯,藍色的是關聯公司,橙色的是産品,綠色的是上遊,棕色的是下遊。
前面講了知識抽取和知識表示,這裡簡單講一下圖資料庫。最近兩年圖資料庫非常火,像neo4j、Stellardb、GraphX、TITAN、OrientDB。圖資料庫是知識圖譜非常重要的技術架構,對圖資料庫的存儲、檢索要求越來越高,希望更多去相容sql文法。現在很難去建構多層屬性,更多的去平鋪,平鋪開之後有個問題,點和邊會非常的多,現在遇到一些案例,上百億個點,上千億條邊。海量的資料,計算引擎怎麼設計,比方說現在比較好的分布式計算架構是不是能更好的去優化,包括點邊是否能實作增删改查,對圖的周遊能否做到秒級傳回,這是我們關注的一些點。
這裡對圖資料庫的存儲結構做簡單的展示,目前主流的圖資料庫是通過RDF的方式去建構,GraphX把頂點和邊分别存儲,屬性和屬性值和點邊産生依賴。TITAN把頂點、邊和屬性全部拆分開去建構。Neo4j是RDF去建構,通過指針跳轉的方式去連接配接,各有千秋。
最後一部分講下案例,今天來的很多講師來自一線網際網路公司,更多關注的是搜尋引擎和知識問答這些方面,星環是專門做企業級市場的公司,更多關注的是企業級知識圖譜。
第一個例子是銀行的案例,銀行信貸裡擔保鍊的分析。使用者檢索出目前某一個授信企業客戶目前的信貸狀況,可以看到信貸的不良率、是否有違約以及逾期的狀況,這是一個非常基礎的資訊報表的展示。當我們發現該企業有疑點的時候,就可以去檢查它某一次的授信裡面的關聯關系。比如該次授信,企業的擔保人是不是存在一些問題。右邊的知識圖譜中,紅色是我們查閱的實體,實體與它産生的擔保關系就可以全部周遊出來,和給該企業做擔保的上級是否存在擔保關系。這樣全部都能周遊出來,在周遊出來的圖譜可以看到企業是不是存在閉環,或者出現雙向或者交叉的圖形。在過去,人工的方式很難做到,尤其一些體量比較大的銀行,企業的經營範圍面向全國的時候。目前建構企業擔保類的知識圖譜非常快,周遊一個大企業能做到小時級。
這是一個監管科技的應用,這是我們幫銀監會去做的案例,在福建省銀監做的銀監眼的案例。福建省有七個地市,抓一些關鍵性的監控名額,比如存款名額、貸款名額以及不良率的名額、流動性名額 。這是一個應急看闆,可以看到有一些關鍵性的資料,比方說不良率、地區的存款分布、房産貸款,橫坐标是地市。
檢索是相對比較複雜的,有疑點提示,名額概覽,當我們去關注某一個疑點的時候,可以做一些篩選,像資金流向、資金空轉、失信被執行等監管科技比較關心的名額,當我們去篩選的時候,把有疑點的一些企業和客戶抓取出來。
深入點選進去之後,就可以對該企業形成關系圖譜,或者叫對公客戶的客戶畫像。比方跟該企業相關聯的交易關系,可以通過知識圖譜展示出來。空心就是實體,綠色就是跟企業産生交易的,全部都是有向圖,箭頭指向就是交易的流向。
第三個案例是證券,幫券商去建構的投研平台,當去搜尋個股的時候,除了個股F10的資訊之外,還會有研報資訊和新聞熱點資訊都可以在看闆展示。在左下方,幫助個股建構了四類圖譜,第一個是公司圖譜,主要對企業内部,跟企業相關的高管、法人以及股東關系。
産業鍊圖譜,包括物流、家電、電商等。還有所處行業都會做展示。
跟投資相關會比較關注熱度,第一個就是情感分析,比如雪球指數、新浪、股吧。紅色表示反向,藍色表示中性,綠色表示正向。
右邊是情感走勢,可以看到個股在每一個網際網路平台熱度的變化。這樣就是智能投研的知識圖譜。配套PPT下載下傳,請識别底部二維碼關注社群公衆号,背景回複【星環科技】
作者介紹:
張秋劍,星環科技金融事業部總監。上海師範大學計算機科學技術碩士,資深大資料專家和金融行業技術專家。 現任星環科技金融事業部總監,大資料技術架構行業顧問專家,雲析學院發起人, AICUG社群聯合發起人,曾在IEEE等期刊發表多篇論文。目前主要為銀行、證券和保 險等行業客戶提供大資料平台及人工智能平台的整體規劃和項目建設等工作。
——END——
社群介紹:
DataFun定位于最“實用”的資料科學社群,主要形式為線下的深度沙龍、線上的内容整理。希望将工業界專家在各自場景下的實踐經驗,通過DataFun的平台傳播和擴散,對即将或已經開始相關嘗試的同學有啟發和借鑒。DataFun的願景是:為大資料、人工智能從業者和愛好者打造一個分享、交流、學習、成長的平台,讓資料科學領域的知識和經驗更好的傳播和落地産生價值。
DataFun社群成立至今,已經成功在全國範圍内舉辦數十場線下技術沙龍,有超過一百五十位的業内專家參與分享,聚集了萬餘大資料、算法相關領域從業者。