天天看點

開放知識庫調研開放知識庫調研

開放知識庫調研

目前調研到可用的開放知識庫包括:Knowledge Graph, Freebase, Wikidata。下文描述能夠擷取的資料以及對應最友善的接口方式。

1 Knowledge Graph

1.1 關鍵字搜尋接口

接口方式: HTTP GET

資料格式: json

資料内容:

  • mid: Freebase 實體id,能通過此id通路實體在 Freebase 中的資訊。
  • name: 實體名稱。
  • type: 實體類型。
  • description: 實體的一句話簡短描述。
  • image: 描述實體的一幅圖檔,如人物的照片,機構的徽章等。
  • detailed description: 比較詳細的介紹文章,包含摘要以及文章的url,文章大部分來自wikipedia。

2 Freebase

提供關鍵字搜素接口,并提供html格式的實體資訊頁面。

2.1 關鍵字搜尋

接口方式: HTTP GET

資料格式: json

資料内容:

  • name: 實體名稱
  • mid: Freebase 實體id

可以參考Freebase搜尋Beijing。

2.2 實體資訊頁面

接口方式: HTTP GET

資料格式: html

實體資訊頁面以html格式提供實體的詳細資訊,還包含很多的相關實體以及實體關系。但是由于資訊結構化程度低,并且不同種類實體提供的資訊也不一樣,是以分析困難。

比較一般性的資訊包含:

  • name: 實體名稱。
  • description: 實體描述,一般來自wikipedia,附有資源的url。
  • alias: 實體的其他别名。
  • image: 描述實體的圖檔。
  • topic: 與實體相關的一些文章。

其他具體的内容依據相應實體的類别而異。例如機構類實體可能包含:

  • 官方網站
  • 地理位置
  • 電話号碼
  • 員工資訊

名人類實體可能包含:

  • 出生時間
  • 死亡時間
  • 國籍
  • 家庭關系

資料内容可以參考Freebase Beijing 資訊頁。

3 Wikidata

提供關鍵字搜尋接口,并能依據id進行實體詳細資訊查詢。

3.1 關鍵字搜尋

接口方式: HTTP GET

資料格式: html

資料内容: 隻包含相應實體在 Wikidata 中的id。

3.2 實體詳細資訊查詢

依據實體的 Wikidata id查詢其詳細資訊。

接口方式: HTTP GET

資料格式: 可以指定html或者json

資料内容: 以實體以及關系描述的實體詳細資訊。html格式為人類可讀的頁面,json格式是類似于三元組描述的實體關系資料。

html格式的資料可以參考Wikidata html: Beijing,json格式的資料可以參考Wikidata json: Beijing。