天天看點

【論文閱讀】Real-time Personalization using Embeddings for Search Ranking at AirbnbListing EmbeddingUser-type & Listing-type Embeddings

會議:KDD2018,4篇Best Paper之一

作者:來自Airbnb的Mihajlo Grbovic和Haibin Cheng

關鍵詞:Search Ranking; Personalization; Embedding

這篇工作的基礎部分可以認為是word2vec在推薦領域的應用。word2vec對word進行embedding,本文對User與Listing進行embedding。embedding後的向量和word2vec的結果一樣,被賦予了意義,能夠衡量在空間中的距離。這個空間在word2vec中是語義空間,在本文中可以被看做是使用者(User)對産品(Listing)的興趣空間。

文中的Embedding可以分為兩塊:

  1. 短期即時的個性化,Listing embeddings
  2. 長期個性化,User-type & listing type embeddings
Listing embeddings for short-term real-time personalization and user-type & listing type embeddings for long term personalization.

Listing Embedding

【論文閱讀】Real-time Personalization using Embeddings for Search Ranking at AirbnbListing EmbeddingUser-type & Listing-type Embeddings

圖1表示了一個以Li為中心的點選序列。這部分的基本思路是Skip-gram Model。

Skip-gram Negative Sampling(SGNS)

所需最大化的目标函數為:

【論文閱讀】Real-time Personalization using Embeddings for Search Ranking at AirbnbListing EmbeddingUser-type & Listing-type Embeddings

m m m是標明的中心前後視窗的長度。 P ( L j ∣ L i ) P(L_j|L_i) P(Lj​∣Li​)的公式如下(Softmax):

【論文閱讀】Real-time Personalization using Embeddings for Search Ranking at AirbnbListing EmbeddingUser-type & Listing-type Embeddings

偏導 ∇ P ( l j ∣ l i ) ∇P(l_j|l_i) ∇P(lj​∣li​)的時間複雜度 O ( n ) O(n) O(n)太高,是以使用負采樣的方法來簡化。負采樣是指把Softmax替換成:

P ( l j ∣ l i ) = σ ( u i T v j ) ∏ k = 1 N σ ( − u i T v k ) P(l_j|l_i) = \sigma(u_i^{T}v_j)\prod_{k=1}^N \sigma(-u_i^Tv_k) P(lj​∣li​)=σ(uiT​vj​)k=1∏N​σ(−uiT​vk​)

其中, σ ( x ) = 1 1 + e − x \sigma(x) = {1\over{1+e^{-x}}} σ(x)=1+e−x1​, N N N決定了在每一個正樣本中采多少負樣本。是以,公式1所示的目标函數可以被改寫為:

【論文閱讀】Real-time Personalization using Embeddings for Search Ranking at AirbnbListing EmbeddingUser-type & Listing-type Embeddings

作者依據Airbnb的業務特點對公式3做了2點補充,相當于多目标融合政策。所加的兩項含義如下:

  1. 第三項:将Booked List作為global Context(畢竟實際業務不能隻看CTR,還要以CVR為導向);
  2. 第四項:由于 D n D_n Dn​和 D p D_p Dp​極有包含不同的Listing,故再從Listing l l l的Market中做負采樣。
    【論文閱讀】Real-time Personalization using Embeddings for Search Ranking at AirbnbListing EmbeddingUser-type & Listing-type Embeddings
    對于冷啟動問題采用K近鄰的思路解決(K=3)。可以覆寫98%的冷啟動樣本。

User-type & Listing-type Embeddings

未完待續…

繼續閱讀