開放知識庫調研
目前調研到可用的開放知識庫包括:Knowledge Graph, Freebase, Wikidata。下文描述能夠擷取的資料以及對應最友善的接口方式。
1 Knowledge Graph
1.1 關鍵字搜尋接口
接口方式: HTTP GET
資料格式: json
資料内容:
- mid: Freebase 實體id,能通過此id通路實體在 Freebase 中的資訊。
- name: 實體名稱。
- type: 實體類型。
- description: 實體的一句話簡短描述。
- image: 描述實體的一幅圖檔,如人物的照片,機構的徽章等。
- detailed description: 比較詳細的介紹文章,包含摘要以及文章的url,文章大部分來自wikipedia。
2 Freebase
提供關鍵字搜素接口,并提供html格式的實體資訊頁面。
2.1 關鍵字搜尋
接口方式: HTTP GET
資料格式: json
資料内容:
- name: 實體名稱
- mid: Freebase 實體id
可以參考Freebase搜尋Beijing。
2.2 實體資訊頁面
接口方式: HTTP GET
資料格式: html
實體資訊頁面以html格式提供實體的詳細資訊,還包含很多的相關實體以及實體關系。但是由于資訊結構化程度低,并且不同種類實體提供的資訊也不一樣,是以分析困難。
比較一般性的資訊包含:
- name: 實體名稱。
- description: 實體描述,一般來自wikipedia,附有資源的url。
- alias: 實體的其他别名。
- image: 描述實體的圖檔。
- topic: 與實體相關的一些文章。
其他具體的内容依據相應實體的類别而異。例如機構類實體可能包含:
- 官方網站
- 地理位置
- 電話号碼
- 員工資訊
名人類實體可能包含:
- 出生時間
- 死亡時間
- 國籍
- 家庭關系
資料内容可以參考Freebase Beijing 資訊頁。
3 Wikidata
提供關鍵字搜尋接口,并能依據id進行實體詳細資訊查詢。
3.1 關鍵字搜尋
接口方式: HTTP GET
資料格式: html
資料内容: 隻包含相應實體在 Wikidata 中的id。
3.2 實體詳細資訊查詢
依據實體的 Wikidata id查詢其詳細資訊。
接口方式: HTTP GET
資料格式: 可以指定html或者json
資料内容: 以實體以及關系描述的實體詳細資訊。html格式為人類可讀的頁面,json格式是類似于三元組描述的實體關系資料。
html格式的資料可以參考Wikidata html: Beijing,json格式的資料可以參考Wikidata json: Beijing。