《短文本資料了解》——第2章基于機率的屬性提取與推導2.1引言

本節書摘來自華章出版社《短文本資料了解》一書中的第2章，第2.1節，作者：王仲遠　編著，更多章節内容可以通路雲栖社群“華章計算機”公衆号檢視。

知識庫包含概念、實體、屬性和關系，它在許多應用中的作用日漸突出。本章強調（概念和實體的）屬性知識對推測的重要性，并提出一種為百萬級的概念推導出屬性的方法。該方法将屬性和概念的關系量化為典型性（typicality），使用多個資料源來聚合計算這些典型度得分，這些資料源包括網頁文本、搜尋記錄和現有的知識庫。該方法創新性地将基于概念和實體的模式融合計算典型度得分，大量的實驗證明了該方法的可行性。

建立概念、實體和屬性的知識庫的目的在于賦予機器像人類一樣的推測能力。在推理這個任務中，輸入資料往往稀疏、噪點大且包含歧義。人類能很好地了解這樣的文本是因為人類具備抽象的先驗知識。類似的，知識庫旨在為機器提供這樣的先驗知識，進而使其能夠調用知識來完成思考判斷。可見，知識庫是實作人工智能必不可少的元素。

一個知識庫包含一系列的概念、實體和屬性的關系。在這些關系中，如下三類尤為重要：

. isa：子概念和概念的關系(如it company isa company）。

. isinstanceof：實體和概念的關系(如microsoft isinstanceof company)。

. ispropertyof：屬性和概念的關系(如color ispropertyof wine）。

本章強調屬性和概念的關系(ispropertyof)對基于知識的推測尤其重要。然而，為了完成推斷，機器不僅僅需要了解概念的屬性，還需要知道每個屬性的典型性。本章将重點介紹一種自動擷取屬性并為其打分的方法。該方法的産出為一個大型的資料庫，如表21所示，整個資料庫包含百萬級的概念、屬性以及屬性的得分。這些分數對推測尤為重要，它們被定義為如下的典型度得分。

. p(c｜a)表示概念c在屬性a上的典型度。

. p(a｜c)表示屬性a在概念c上的典型度。

如表2.1所示，company不是name的典型概念，因為很多别的概念都有name這個屬性。相比之下，company更像是operating profit的典型概念。這些典型性被量化為表中的得分：

p(company｜operating profit)>p(company｜name)

（2.1）

從另一個角度而言，當人們談論一個company時，更傾向于被提到的是它的name，而不是operating profit，是以：

p(operating profit｜company)

（2.2）

如表2.1所示，式(2.2)中兩項的典型度得分差異為006，遠小于式(21)中兩項的典型度得分差異09，這與人類的認知一緻。

至此，本章闡述了概念、屬性和典型度得分對基于知識推測的重要性。直覺地，給出短文本

“capital city，population”，人們會聯想到country。給出“color，body，smell”，人們則會聯想到wine。然而在大多數情況下，屬性和概念的關聯并不那麼直覺。以圖21為例，假設在網頁上看到該圖，人們能否很容易地推測出這張表格的标題？

根據單一屬性，如website，人類無法準确推測圖表含義。然而，如圖21所示，當系統看到更多屬性時，它所推測到的候選概念将減少。當圖表呈現出6個或7個屬性時，系統能夠以較高的置信度擷取正确的概念。而典型度得分p(c｜a)和p(a｜c)在這一過程中扮演着十分重要的角色。

下面是另外一個例子。

the coolpix p7100is announced the powerful lens with 71x zoom offers high resolution(10mp)images

假設讀者不知道coolpix p7100為一款相機，他是否能夠根據語境推測到其講述的是相機呢？也許可以。那麼具有知識庫的機器能否完成相同的推測呢？假設通過自然語言處理技術，lens、zoom、resolution都被标注為知識庫中的屬性詞，且隻有camera和smart phone包含這些屬性。那麼，機器隻需了解機率p(camera｜lens；zoom；resolution)大于p(smart phone｜lens；zoom；resolution)，便可成功完成推

測。換言之，機器需要知道camera是上述屬性更加典型的概念。

通過典型度得分，機器很容易便可完成上述推測。典型度得分的目的在于為屬性尋找最可能的概念。更具體地說，需要找到概念c(，使其滿足

c(=argmaxcp(c｜a)

其中a=(lens，zoom，resolution)，為一系列屬性。p(c｜a)可以用樸素貝葉斯模型得到：

p(c｜a)=p(a｜c)p(c)p(a)∝p(c)•∏a∈ap(a｜c)

至此，該問題被轉化為尋找一系列的典型度得分p(c｜a)。

為支援上述的機器推測問題，本章将專注于如下兩個任務：擷取屬性和為屬性打分。這些任務在機率知識庫probase［166，153］上完成。該知識庫包含了大量的概念、實體和isa關系。本章的方法有如下貢獻：

. 該方法創新性地為屬性擷取典型度得分。本章将論證帶有典型度得分的概念和屬性對很多實際應用意義重大。在這項工作中，典型度得分被诠釋為兩個方面：頻率(frequency)和家族相似度(family resemblance)，它們将被表示為機率得分。

.該方法在擷取屬性的時候能夠處理歧義。消歧是一項很大的挑戰，且在過往的屬性提取方法中很少被強調。例如，當機器試圖擷取wine的屬性時，它會錯誤地将短文“the mayor of bordeaux”中的“mayor”标注為wine的屬性。事實上，bordeaux一詞包含歧義，它不僅是酒的名字，還指法國西南的一個小城市。本章的工作針對基于實體的屬性提取中的歧義，改進基于概念的屬性提取方法，使其不受歧義的影響。

.該方法從多個來源擷取資料，并使用一種新的排序方法合并這些不同來源的資料。每個資料源和方法都有其獨特特征。例如，name這個屬性可能會被基于概念的屬性提取方法識别，但不能通過基于實體的方法擷取。biography這個屬性則恰恰相反。因而，通過使用不同的方法和資料源有助于得到更加全面的屬性資訊，并幫助解決歧義、噪聲、偏見和覆寫率的局限性。本章将對通過不同資料源提取到的屬性進行比較，并提出一種新的排序算法來合并這些屬性提取的結果。在這一問題上，現有的方法使用了回歸［47］來聚合結果，但需要人為評估确定某些數值。而新提出的排序算法沒有這一需求。

本章結構如下：2.2節介紹為百萬級概念擷取屬性的方法；2.3節闡述為屬性标記權重、聚合權重的方法；本章相關工作的讨論和結論将分别在2.4節和2.5節給出。

《短文本資料了解》——第2章基于機率的屬性提取與推導2.1引言

繼續閱讀

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

Linxu常用指令技巧彙總

ERROR 1 (HY000): Can't create/write to file '/tmp/#sql_4188_1.MYI' (Errcode: 28)

艱難安裝LDAP,SSL認證

《Linux指令行與Shell腳本程式設計大全第2版.布盧姆》pdf

MySQL的4種隔離級别？出現問題

XX系統實施過程問題總結

無元件上傳圖檔到資料庫中，最完整解決方案

【MySQL資料庫】資料庫索引事務1.索引2.事務

無人機--飛控科普

neo4j之cypher使用文檔

NOSQL安全攻擊

mybatis_入門程式Mybatis入門

登入plsql 報錯 the account is locked --使用者被鎖

SequoiaDB巨杉資料庫C++驅動概述

《 短文本資料了解》——第2章 基于機率的屬性提取與推導2.1引言

繼續閱讀

《短文本資料了解》——第2章基于機率的屬性提取與推導2.1引言