天天看點

中國人工智能學會通訊——金融博弈下的價值學習 1.3 貝葉斯最優拍賣

中國人工智能學會通訊——金融博弈下的價值學習 1.3 貝葉斯最優拍賣

這是一個著名的Myerson最優拍賣的例子。第一步,Myerson的建議是,我們知道它的分布,怎麼知道沒有說,我們把它加進來,因為我們是學習這個價值分布。

大多數情況,在網際網路的環境下,這個事情都是我們自己做的。在這裡我們有一個報價,然後運用一個機制設計來決定賣給你什麼,收多少錢。這裡,虛拟報價是根據真實報價算出來的一個值。

這樣的話,在Myerson拍賣裡面它确定赢家在虛拟報價最高的一列,計算費用就等價于第二虛拟報價的赢家報價,這是一個非常簡明扼要的方案。但是在網際網路中,賣給你很多次以後,我知道你有一個底價,即虛拟報價等于0的那個就是底價。在貝葉斯最優拍賣裡面也有這樣一個值。

中國人工智能學會通訊——金融博弈下的價值學習 1.3 貝葉斯最優拍賣

我們看看Myerson拍賣時怎麼賣。

它的分布函數空間為[0,a] 1>a>0。

我們回去參考一下,或者是你相信我的話,虛拟報價是2x-a,當2x-a=0即x=a/2當隻有一個人時,你的報價大于a/2就赢得報價,你的付費就是a/2。

中國人工智能學會通訊——金融博弈下的價值學習 1.3 貝葉斯最優拍賣

這樣我們可以算出來你的付費是多少,你的期望收益是多少。你的期望收益在這裡算出來的是一個常數減去a/4。你的最優政策是什麼?你把a設為0,最優政策的收益是3/8。但是你誠實報價時a=1,你的誠實收益是1/8,這樣的話,拍賣者就被你欺騙了。

在一般的情況下,我們有這麼兩個階段。第一個階段呢,在經濟學理論分析中,它強調邏輯原則,也就是剛才我們講的Myerson拍賣,它是假設知道你的分布。但是今天我們看到,資料範式裡非常強調資料,那麼我們把這兩個銜接起來就能發現以前的理論的弱點在哪裡。

中國人工智能學會通訊——金融博弈下的價值學習 1.3 貝葉斯最優拍賣

我們在這樣一個均衡的情況下,剛才隻講了一個人的情況,如果是多個買家的情況,我們也可以得到一個最佳欺騙的分布。n趨向于無窮大時,a=1。也就是說,參與買賣東西的人很多時,我們會收斂到Myerson拍賣,賣家收入是得到真實報價的最優收入。這裡有一點,賣家是對的,賣家要學習,學習以後能夠得到最優拍賣,而買家要做strategy,結果得到自己2倍的真實報價最優收益。

今天我想講的是最後一段,賣家要反複學習,買家要做strategy。

(本報告根據速記整理)

繼續閱讀