天天看點

中國人工智能學會通訊——衆包中的統計推斷與激勵機制 3 衆包激勵措施

我要讨論的下一個問題,就是在做衆包的時候怎麼付錢。我之是以想做這個問題,是因為我對前面的解決方案并不是很滿意。盡管極小極大熵原理相對投票,以及其他的方法準确率有很大的提高,但是我希望能有更大的提高。

如果我們想把一個問題的解決方案做出本質的提升,往往需要跳出原來的解決思路。我們注意到衆包遠不隻是機器學習的問題。衆包是個商業行為。衆包人員給我們标記資料時,我們需要付錢。如何付錢有可能是整個衆包資料品質的關鍵所在。

一個常用的付錢政策就是通過随機抽查答案的品質來決定付多少錢。具體操作起來,就是把一些我們已經知道答案的問題随機分布在衆包任務裡面(下圖裡面紅方框表示已經知道标簽的圖像)。這些知道答案的問題通常稱為金色标準問題。資料标記人員不知道哪些問題是金色标準問題。我們根據一個資料标記人員在金色标準問題上的表現來決定付多少錢。

中國人工智能學會通訊——衆包中的統計推斷與激勵機制 3 衆包激勵措施

我們可以先想想怎麼付這個錢。比如說:

(1)報酬正比于精度。假設我們有100個圖像需要标記,有4個圖像我們是知道答案的,但是資料标記員不知道哪4個圖案你是知道答案的,假設每個标記是2分錢,有一個人答對了一個,正确率就是四分之一,報酬是4 ×2 ×¼ = 2。

(2)超過一定精度才給錢。比如說精度超過了60%,我們就給錢,低于60%就不給錢。上面那個例子裡面就不給錢。

繼續閱讀