知識圖譜中屬性和關系的差別主要是在于其面對的實體不同。
為了友善計算機的處理和了解,知識圖譜使用了更加形式化、簡潔化的方式去表示知識,就是三元組(triple)。
“姚明出生于中國上海” 可以用三元組表示為(Yao Ming, PlaceOfBirth, Shanghai)。
這裡我們可以簡單的把三元組了解為(實體entity,實體關系relation,實體entity)。如果我們把實體看作是結點,把實體關系(包括屬性,類别等等)看作是一條邊,那麼包含了大量三元組的知識庫就成為了一個龐大的知識圖。
實體關系分為兩種,一種是屬性property,一種是關系relation。其最大差別在于,屬性所在的三元組對應的兩個實體,常常是一個topic和一個字元串,如屬性Type/Gender,對應的三元組(Justin Bieber, Type, Person),而關系所在的三元組所對應的兩個實體,常常是兩個topic。如關系PlaceOfBrith,對應的三元組(Justin Bieber, PlaceOfBrith, London)。
在發揮處理海量差異性資料優勢方面,KGB知識圖譜功能很好的發揮了大資料時代的知識圖譜建構優勢,能夠實作以下幾種功能:
- 文檔解析: KGB知識圖譜引擎,可輕松解析多種格式與版本文檔:TXT、DOC、EXCEL、PPT、PDF、XML等。尤其是PDF檔案,可直接解析輸出為word格式檔案,保留檔案中表格與文字格式等重要資訊。對于圖檔資訊,OCR可自動識别并抽取圖檔中的文字資訊。
- 知識抽取:KGB知識圖譜引擎,可從結構化表格與非結構化文本中自适應識别并抽取關鍵知識(主體、客體、時間、地點、金額、條款等),準确率高達90%,實作知識的快速生成。
- 知識關聯:KGB知識圖譜引擎深入挖掘知識關聯,将一個個知識實體連結為具有完整意義的知識事實。并具有強大的知識推理能力,推理出暗含的知識與結論,豐富知識圖譜。
- 知識較驗:KGB知識圖譜加工廠能夠對知識品質智能校驗,包括對多種知識錯誤與沖突進行自動智能核查與修正,更有知識工程師進行知識精準校驗,保證知識圖譜的準确性。