大規模中文概念圖譜CN-Probase正式釋出

2017-11-12 23:50:00

曆時多年的研發，複旦大學知識工場實驗室正式推出大規模中文概念圖譜——CN-Probase，用于幫助機器更好的了解人類語言。概念圖譜中包含實體（比如“劉德華”）、概念（比如“演員”），實體與概念之間的類屬關系（又稱isA關系，比如 “劉德華 isA 演員”），概念與概念之間的 subclass of 關系（比如 “電影演員”是“演員”的子類）。通常後面兩類關系，又統稱為 isA 關系。如果 A isA B，通常稱A為B的下位詞（hyponym）,或者B為A的上位詞（hypernym）。

概念的形成是人類認知從具體進入抽象的第一步。人類通過概念認知世界，概念是人類認知世界的基石。概念是人腦對客觀事物本質的反映，是思維活動的結果和産物，是思維活動借以開展的基本單元。比如“恐龍”這一概念讓我們能夠認知形形色色的恐龍，把握其共性本質，而無需糾纏于不同特定恐龍的細微差别。建立概念分類體系，并為數以千萬計的實體建立概念圖譜，是我們在讓機器具備認知能力的征程中所邁出的至關重要的一步。

人類通過分類結構（Taxonomy）來組織和表示概念。最早可以追溯到亞裡士多德時代。随後的幾千年來，人類一直在不斷完善概念的分類體系，并于近些年湧現了很多分類體系，如Cyc，WordNet等，這些概念分類體系大都由專家手工建構，品質精良，但是建構代價高昂，規模有限。

現在知識工場采用自動的方法，基于CN-DBpedia以及海量中文網頁語料等多個資料源，建構了大型中文概念知識圖譜——CN-Probase。針對中文語言的特性，采用了全新的抽取政策，達到質和量的全面更新。

CN-Probase是由複旦大學知識工場實驗室研發并維護的大規模中文概念圖譜，是目前規模最大的開放領域中文概念圖譜和概念分類體系，isA關系的準确率在95%以上。相比較于其他概念圖譜，CN-Probase具有兩個顯著優點：

一、規模巨大，基本涵蓋常見實體和概念。包含約1700萬實體、27萬概念和3300萬isA關系。

二、嚴格按照實體進行組織，有利于精準了解實體的概念。例如，“劉德華”這個名字，可能對應很多叫“劉德華”的人，在CN-Probase裡搜尋“劉德華”，會出現按照典型性排序的很多實體，排在第一個的是大家提及名字都會聯想到的歌手“劉德華”。

有了CN-Probase，計算機就能像人類一樣具有常識。例如，計算機可以知道鯉魚和鲨魚都是魚，但鯉魚是一種淡水魚，而鲨魚是一種海水魚。

與此同時，CN-Probase還可以廣泛應用于各種場景：

例一：搜尋意圖了解

使用者搜尋“西遊記”，我們通過它的概念“中國古代四大名著”、“小說”可以了解使用者是在搜尋小說類名著。對于使用者搜尋意圖的精準了解可以進一步幫助改進檢索、排序與推薦。

例二：實體相似性判斷

當使用者需要判斷“複旦大學”和“上海交大”是否相似時，僅僅根據字面相似性，很難知道它們是相似實體。但是通過CN-Probase，我們可以看到它們的概念是差不多的（如下圖），進而可以判斷它們在語義上是相似的。

例三：可解釋實體推薦

當使用者先後搜尋“複旦大學”、“上海交通大學”，“上海理工大學”時，我們人類可以自然地推斷使用者是在搜尋上海高校。如今，機器通過檢索CN-Probase，發現這三個實體共享“上海高校”這個概念，進而也可以準确識别使用者的搜尋意圖，進一步推薦“上海外國語大學”，“同濟大學”等實體，并給出使用者是在搜尋上海高校這一解釋。

目前，知識工場提供兩種方式通路CN-Probase：

頁面直接通路。進入http://kw.fudan.edu.cn/cnprobase即可通路CN-Probase頁面。

API接口通路。我們提供了全套資料通路API，大家可以通路http://kw.fudan.edu.cn/apis/cnprobase/ 檢視具體通路方法。

值此釋出之際，特向大規模概念圖譜的“前輩們”，包括德國馬普研究所的Yago、微軟亞洲研究院的Probase、微軟的概念圖譜以及哈爾濱工業大學的大詞林，表示崇高的敬意。

原文釋出時間為：2017-11-13

本文作者：知識工場

大規模中文概念圖譜CN-Probase正式釋出

繼續閱讀

Google 段落排名算法（Passage Ranking）全解讀

淘寶推薦、視訊搜尋背後的檢索技術竟是它！深度揭秘達摩院向量檢索引擎Proxima

MIND - 基于動态路由的使用者多向量召回

阿裡雲 AI 編輯部獲 CCBN 創新獎，揭秘傳媒行業解決方案背後的黑科技

華為、阿裡、小米都在用的全屋智能技術

帶你讀《6G需求與願景》第三章6G 設計思路與願景3.2 6G 業務願景（二）

帶你讀《創新之巅：未來十年重構商業的六大戰略性技術》第二章傳感器和物聯網（IoT）2.2物聯網可以做什麼（二）

人工智能驅動的資料分析工具如何使企業群組織受益

SQL：DESC和ASC的意思

解決方案應用執行個體 |阿裡雲x老闆電器，打造行業首個無人工廠客戶簡介業務挑戰阿裡雲如何助力客戶？客戶價值老闆電器x阿裡雲建設智能黑燈工廠

聯合國召開首次人工智能峰會：讓AI助力17個可持續發展目标

AI提高藥物發現效率 | ML,Supercomputers and Big Data

為什麼做直播的都去造星了？

面試官：談談 MySQL 聯合索引生效、失效的條件？

搜狗二季度報出爐，或許搜狗的現狀并沒我們想象中糟！

搜狗二季度财報解讀：有紮實的現在，也有性感的未來