天天看點

将外部知識整合到群體智能中,以獲得更具體的知識

Incorporating External Knowledge into Crowd Intelligence for More Specific Knowledge Acquisition

關鍵知識:衆包、權重投票、WordNet

引自:Han T , Sun H , Song Y , et al. Incorporating External Knowledge into Crowd Intelligence for More Specific Knowledge Acquisition[C]// IJCAI2016. AAAI Press, 2016.

摘要:

​ 衆包已經成為一種有效的機制,可以利用人類智能為明确的任務擷取有用的知識。然而,當基于目前開發的投票算法對群體知識進行聚合時,通常會無法推理出符合預期的統一知識。在本文中,我們考慮通過衆包收集盡可能具體的知識的問題。借助WordNet等外部知識庫,将備選答案之間的語義關系納入機率模型,以确定哪個答案更具體。在考慮勞工能力和任務難度的基礎上,建立了機率模型,并用期望最大化算法求解。實驗結果表明,當期望得到更具體的答案時,我們的方法比多數投票法提高了35.88%。

1. Introduction

​ 衆包已經成功地用于利用人類智能來執行計算機目前無法完成的任務。它已應用于許多應用,如命名實體分辨率、圖像注釋、音頻識别、視訊注釋等。然而,當衆包技術應用于知識擷取時,如資訊提取和圖像标注,就會産生一個需要擷取何種知識的問題。據我們所知,大多數衆包結果的聚集算法都基于多數投票或其變體。在投票方法中,最終的聚合答案通常用基本級概念的常識知識表示。對于對象識别,機器可以用基本級概念識别對象,這與人類更為一緻。然而,對于知識擷取,更具體的概念往往是首選。一方面,更具體的知識意味着對一個執行個體或一個問題有更多具體的注解或答案。另一方面,當我們有足夠的分類學知識庫時,我們可以很容易地将特定的概念映射到更普遍的概念中。然而,在計算機在運作中卻很難将一般概念執行個體化為更具體的概念。例如,如果我們想要注釋蜂鳥的圖檔,大多數從業人員将其标記為鳥,投票算法将其注釋為鳥,那麼就沒有機會獲得蜂鳥的知識,因為已經做出了決定。

​ 在本文中,我們主要關注如何從衆包結果中生成更具體的知識。這個問題有兩大挑戰。首先,與普通知識相比,更具體的答案往往被貼上更少的勞工标簽。是以,不太可能直接從投票結果中獲得此類資訊。盡管如此,如果我們有一些外部知識表明某些概念是更高層次概念的子接受,那麼我們可以得出一個模型,将這些知識納入投票中,以重新權重更具體的概念。一些知識庫對這種概念接受關系有廣泛的覆寫,而我們在這裡使用WordNet作為外部知識。

​ 其次,由于人的行為包含政策、錯誤和惡意,如何從這些不可靠的多重答案中總結出可信的答案是衆包中的一個重要問題。不同的勞工可能有不同的回答能力,而不同的任務可能對不同的勞工有不同的難度。是以,研究表明,将員工能力和任務難度納入衆包決策可以顯著提高結果。對于更具體的知識,從業人員的能力和任務難度是更為關鍵的問題,因為衆包平台通常不針對任何特定領域開發,平台上的從業人員可能不是領域專家。是以,在決策模型中考慮這兩個因素更為重要。例如,在我們的案例中,我們需要考慮這些因素如何與外部知識互動。

​ 考慮到上述挑戰和考慮,我們提出了一種機率模型,稱為具有外部知識的簡單性能力估計模型(SEEK),其中我們将任務難度、工作能力和外部知識方面最具體的可信标簽的條件機率分解為因子。在這裡,我們使用“任務簡單性”而不是“困難性”來使這個因素與勞工的能力相一緻。然後采用期望最大化算法對模型進行求解。在擷取二進制關系以建構概念分類法方面,已有一些重大研究,并使用分類法根據多标簽分類法對項目進行分類。與在分類法中提出任何二進制問題并智能地選擇由控制算法提出哪些問題的方法相比,我們的方法要求從業人員輸入一個标簽,并決定在所有标簽中哪一個更具體。

本文的貢獻總結如下:

  • 提出了一個衆包問題,目标是從勞工那裡獲得更具體的知識。
  • 提出了一種決策算法,可以評估任務的簡單性、使用者能力,并結合外部知識來解決問題。
  • 進行了一系列實驗,以證明與最先進的方法相比,表明工作的有效性和優勢。

2. Problem Formulation

​ 在本節中,我們将介紹我們通過衆包擷取知識的問題。

2.1 Definition of KAC

​ 我們一般将我們的問題稱為利用衆包的知識擷取(Knowledge Acquisition with Crowdsourcing,KAC)問題。

​ 例如,如果有100個任務、10個從業人員和4個候選标簽供從業人員選擇,那麼聚合算法将确定一個以10010标簽矩陣為輸入,以100維标簽向量為輸出的函數。标簽向量的每個元素都是4個候選标簽之一中對應任務的最終答案。。

2.2 Definition of HKAC

​ 當員工的替代答案之間存在概念上的次接受關系時,我們稱之為“衆包分層知識擷取”(Hierarchical Knowledge Acquisition with Crowdsourcing,HKAC)。在這種情況下,标簽具有如圖1所示的層次樹形結構。如果标簽是另一個标簽的父節點,這意味着第一個标簽的概念比第二個标簽的概念更通用。相反,如果标簽是另一個标簽的子節點之一,這意味着第一個标簽的概念比第二個标簽的概念更具體。HKAC問題是選擇一個盡可能具體的标簽,即使勞工提供的标簽比相對具體的标簽更常見。由于投票不能幫助我們選擇更具體的标簽,我們建議使用外部知識庫,即WordNet,來識别替代标簽之間的語義關系。

将外部知識整合到群體智能中,以獲得更具體的知識

2.3 Workflow

​ 為了整合層次知識,我們提出了如圖2所示的衆包工作流程。

将外部知識整合到群體智能中,以獲得更具體的知識

​ 與一般的衆包工作流程不同,我們整合了外部知識,以克服标簽與共同知識的融合。本工作流程的步驟如下所示。

  • 步驟1:請求者将任務釋出到衆包平台,例如Crowdflower。
  • 步驟2:平台根據其排程政策和使用者指定的限制将任務配置設定給勞工。
  • 步驟3:對于每個接收到的任務,從業人員提供一個标簽,她/他認為最好描述對象或回答相應任務中的問題。
  • 步驟4:從勞工那裡收集所有标簽之後,我們使用外部知識庫運作模型,以推斷每個任務的聚合結果。最後,所有的聚合結果都傳回給請求者。

3. SEEK Model

​ 在本節中,我們首先展示了從外部知識庫wordnet派生的關系函數。然後,我們提出了一個簡單的修改過的多數投票算法,以納入外部知識。我們進一步引入機率模型,使外部知識與任務難度和勞工能力互相作用。最後,我們完成了搜尋模型,并用EM算法給出了解決方案。

3.1 External Knowledge

​ 我們使用出一個關系函數覆寫基于外部知識的标簽域,以此來描述标簽的語義關系:

将外部知識整合到群體智能中,以獲得更具體的知識

​ 其中,Dist是WordNet圖上兩個節點之間的标準化距離。它被計算為**從較淺的節點到根的路徑長度上兩個節點到它們的共同祖先的最短路徑的長度**。

3.2 Majority Voting with External Knowledge

​ 在最初的多數投票中,我們根據标簽的頻率對其進行評估。

将外部知識整合到群體智能中,以獲得更具體的知識

​ 其中,i是一個名額函數。在權重多數投票中,我們稱之為能力權重多數投票(MWW)算法,我們用勞工i的能力ai (我們可以簡單地使用聚合标簽置信度)來計算工作能力對每個标簽進行權重。

将外部知識整合到群體智能中,以獲得更具體的知識
将外部知識整合到群體智能中,以獲得更具體的知識

​ 在給定關系函數的情況下,我們可以得到一個簡單的基于外部知識的多數投票算法,如算法1所示。給定标簽集L和關系矩陣R,它推斷出每個任務的答案。

将外部知識整合到群體智能中,以獲得更具體的知識

3.3 Probabilistic Modeling

​ MWK以簡單的方式考慮外部知識和勞工能力。現在,我們引入了一個更通用、更精細的模型,将工作能力和任務簡單性結合起來。從機率論的觀點來看,我們把 R(xk,xl) 看作是标簽 lij=xk 機率的非負單調遞增函數,給定聚合标簽 ,即

将外部知識整合到群體智能中,以獲得更具體的知識

​ 其中g(·)是單調函數。

3.4 Inference

将外部知識整合到群體智能中,以獲得更具體的知識

​ 根據之前的讨論,我們正式引入了圖3所示的Seek模型。我們将 作為标簽域j中的觀察标簽,未觀察到的變量是“完美”标簽、能力參數、簡單參數、優勢和的條件機率變量。

将外部知識整合到群體智能中,以獲得更具體的知識

​ 為了簡單起見,我們忽略了a和s的先驗,并使用EM算法獲得和參數的最大似然估計,EM算法總結在算法2中。

将外部知識整合到群體智能中,以獲得更具體的知識

4. Evaluation

​ 在本節中,我們報告了提出的SEEK模型在正确性和有效性方面的評估結果。

4.1 Data Preparation

​ 我們使用了LEVAN (learn everything about anything)項目中使用的圖像,該項目提供了不同概念顆粒度的多種圖像類别。我們使用的概念選自以下一組靠前的概念{bird, dog, cat, crow, horse, sheep}。我們用不同的概念對圖像進行了爬取,并過濾掉無效URL的圖像,最終得到631張清晰的實驗圖像。

​ 我們遵循基于Crowdflower的工作流程,通過雇傭平台中勞工的最進階别的3級勞工來確定标簽的品質。我們給了勞工一個簡短的訓示,讓他們盡可能地提供具體的标簽。對于每項任務,都要求勞工在文本框中填寫他們為圖像提供的标簽。

​ 最初,我們計劃在Crowdflower上用WordNet中的相應概念呈現候選标簽集。然而,Crowdflower不支援從WordNet動态提取概念,我們必須要求勞工在文本框中輸入标簽。是以,在檢索到這631個任務及其6310個标簽(其中每個任務有10個标簽)并手動更正拼寫錯誤後,我們使用WordNet檢查了這些标簽,并保留了WordNet中可以找到的标簽。

​ 對于評估而言,“Groundtruth”不是Levan提供的正确類别,而是包含每個圖像最具體知識的最佳類别。而且,對最特别的類别的原始LEVAN的注釋還不夠好。是以,我們手動地從任務的标簽域中修正了标簽的Groundtruth。每項任務都由我們實驗室的兩名同僚貼上标簽,隻有他們雙方同意的标簽被保留為基本事實。然後還有344個任務,其中有142個任務的标簽域隻包含一個标簽,這意味着不需要聚合。是以,我們進一步篩選了344個任務中的142個任務,最終有202個任務需要評估。在我們的标簽過程中,我們發現确定“Groundtruth”的挑戰在于難以區分概念上非常相似的标簽。例如,ecrow and raven,eagle and hawk等沖突案例。

​ 在標明的202個任務中,有1789個标簽由154名勞工标注,唯一标簽的數量為92個,這與其他衆包标記任務相比相當大。這些标簽的部分分布如圖4所示。我們按照原始勞工标簽的頻率的降序對唯一标簽進行分類,圖中顯示為“Total”。我們還将在同一個圖中顯示由我們固定的“Groundtruth”标簽。通過對标簽分布的比較,我們可以看出,在原勞工的标簽結果中,高頻标簽是最平常的知識。相反,“Groundtruth”集合中的标簽是更具體的标簽。

【注:即勞工所标記的大多為一般性知識标簽;而groundtruth标記的大多是更具體的知識标簽】

4.2 Comparison Results

​ 我們實施了六種比較算法:我們的SEEK算法、多數投票(MV)、能力權重多數投票(MWW)、外部知識多數投票(MWK)、Zhou的極大極小熵法和基于DAWID和SKENE方法(DS)。在這些算法中,SEEK和MWK結合了外部知識。MWK以一種本地的方式使用知識,同時SEEK通過“學習”ai和sj的參數。

​ 所有算法的精度如表1所示。由于在我們的整體問題中,我們有一組更大的獨特标簽,是以問題比之前工作中評估過的問題更為困難。從表1可以看出,Zhou和DS的精度與MV和MWW的精度相當,因為它們本質上是同一類算法它們之間的差別在于如何結合勞工的能力和任務的簡單性。然而,對于我們的問題,如何評價這些參數的差異并不會對最終結果産生太大的影響。由于他們不考慮标簽的特殊性,當模型過于複雜時,單純地估計勞工的能力和任務的簡單性甚至可能損害結果。MWW還考慮了通過勞工“能力”來增強大多數标簽影響的權重。由于資料的稀缺性,是以,MWW估計能力的方式根本不影響結果,而MWW和MV結果的準确性完全相同。最後我們可以看到,Seek的精度為61.88%,與多數投票相比提高了35.88%。有趣的是,MWK也明顯優于多數投票。這意味着對于我們的問題,整合外部知識可能比整合勞工能力和任務簡單性更有用。盡管如此,評估勞工能力和任務簡單性的方法以及與知識的互動方式也有幫助,這導緻尋求優于MWK。

将外部知識整合到群體智能中,以獲得更具體的知識
将外部知識整合到群體智能中,以獲得更具體的知識
将外部知識整合到群體智能中,以獲得更具體的知識

​ 我們最後在圖5和圖6中報告了結果标簽分布。在圖5中,我們分别比較不同算法的分布,其中水準軸表示圖4中所示的相同标簽。由于空間限制,我們隻顯示标簽的ID,而不顯示标簽本身。我們可以看到MV/MWW、Zhou和DS的分布主要集中在高頻标簽上,這表明它們傾向于在所有資料中選擇通用标簽。對于SEEK和MWK,它們的尾分布比MV/MWW長。然而,由于資料的稀缺性,對标簽總分布的估計似乎還不夠完善。我們也在圖6中顯示了更詳細的部分分布,在這裡我們隻比較MV、MWW和“Groundtruth”标簽。我們可以看到,對于像“鷹”、“藍鳥”和“海鷗”這樣的低頻标簽,SEEK的結果更接近于“基本事實”。

5. Comparison Results

​ 本文提出了一個基于衆包的知識擷取新問題,并提出了一種新的機率模型,可以利用外部知識庫中的知識,如wordnet。在機率模型中,我們自動學習勞工的能力和任務的簡單性來定制算法以适應資料。研究結果表明,利用外部知識可以大大提高員工的投票能力,學習員工的能力和任務簡單性也有助于提高員工的績效,而不是對員工能力進行簡單的權重。是以,我們可以得出結論,對于使用衆包擷取更具體的知識的問題,外部知識和衆包具體參數(如勞工能力和任務簡單性)都很重要。

​ 還有一個問題是,當我們設計衆包任務時,勞工們看不到外部知識庫。我們假設,如果我們能夠向勞工展示知識庫,或者勞工能夠與知識庫互動,最終的結果可能會比目前的結果更好。另一個問題是,多數投票仍然受到資料稀缺的困擾。在我們的問題中,與以前的衆包任務相比,我們有許多獨特的标簽,并且每項任務可能比傳統的衆包問題更困難(如果我們将共同概念與更具體的概念進行比較)。是以,每項任務可能需要更多的勞工來投票以獲得良好的結果。是以,如果我們允許更多的勞工在同一個任務上貼上标簽,多數人的投票結果也會得到改善。然而,在這種情況下,衆包成本也會增加。以前的衆包被證明對更簡單的任務更有用。通過将衆包和傳統知識庫結合起來,這項工作可以被視為第一次嘗試解決更困難問題的嘗試之一。