天天看點

搜尋推薦煉丹筆記:CVR預估中的延遲回報問題

CVR預估中的延遲回報問題

搜尋推薦煉丹筆記:CVR預估中的延遲回報問題

一進制@煉丹筆記

問題描述

在很多推薦搜尋的模組化中,我們經常會使用D+1天的資料作為label,從1~D天的資料中的進行特征抽取等工作,和我們時間序列問題模組化類似,但和很多其他的時間序列問題模組化不一樣的地方在于,我們的label不一定可靠,比如在傳統的時間序列回歸中,D+1天的銷量是多少就是多少,我們沒有太多的猶豫,因為不大會有其他的情況。但是在電商的問題中,就存在下面這種情況:

D+1天未購買可能并不一定是真正意義上的未購買,而可能是加入購物車或者意願清單了, 隻是沒有在當天下單, 而是過了一天在D+2天的時候下了單, 而這樣的标簽如果我們直接預設其為負樣本就會有較大的問題,因為它并不是真正意義上的負樣本,隻是回報延遲了。

這在搜尋推薦系統中,我們稱之為延遲回報的問題。

搜尋推薦煉丹筆記:CVR預估中的延遲回報問題

問題嚴峻性

看到這麼個描述,我們似乎有了一個直覺的了解,但是可能并不會過于重視,我們直覺感受是,是的,但是可能比例不會很高吧,有必要重視嗎?下面我們看一組資料:在Criteo公司早期,

  • 有35%的商品會在點選後一個小時内得到轉化;
  • 有50%的商品會在點選後24h内得到轉化;
  • 有13%的商品會在點選後2周之後才得到轉化。
搜尋推薦煉丹筆記:CVR預估中的延遲回報問題

這麼看來問題還是十分嚴峻的,那麼如何解決該問題呢?

Modelling Delayed Feedback in Display Ad

eCPM

這個問題較早在2014文章Modelling Delayed Feedback in Display Advertising中被提出,當時神經網絡等還沒那麼流行,但是解決的思路非常值得借鑒?在廣告推薦中,有一個名額價值是非常大的,eCPM=CPA∗P(conversion,click)=CPA∗P(click)∗P(conversion|click),

  • CPA: Cost per conversion, 廣告商願意為每個轉化支付的金額, 如果eCPM高的話,意味着我們可能獲得更多的錢。

從上面這點可以看出,我們希望能很好地預估某個廣告的轉化機率(最終轉化即可,對應到下文P(C=1|X=x).

問題模組化

變量定義

我們先定義五個變量,

搜尋推薦煉丹筆記:CVR預估中的延遲回報問題
搜尋推薦煉丹筆記:CVR預估中的延遲回報問題
假設
搜尋推薦煉丹筆記:CVR預估中的延遲回報問題
問題表示
搜尋推薦煉丹筆記:CVR預估中的延遲回報問題
損失函數 & 問題求解 損失函數:
搜尋推薦煉丹筆記:CVR預估中的延遲回報問題

小結

繼續閱讀