【論文閱讀】Real-time Personalization using Embeddings for Search Ranking at AirbnbListing EmbeddingUser-type & Listing-type Embeddings

2023-06-08 22:16:50

會議：KDD2018，4篇Best Paper之一

作者：來自Airbnb的Mihajlo Grbovic和Haibin Cheng

關鍵詞：Search Ranking; Personalization; Embedding

這篇工作的基礎部分可以認為是word2vec在推薦領域的應用。word2vec對word進行embedding，本文對User與Listing進行embedding。embedding後的向量和word2vec的結果一樣，被賦予了意義，能夠衡量在空間中的距離。這個空間在word2vec中是語義空間，在本文中可以被看做是使用者(User)對産品(Listing)的興趣空間。

文中的Embedding可以分為兩塊：

短期即時的個性化，Listing embeddings
長期個性化，User-type & listing type embeddings

Listing embeddings for short-term real-time personalization and user-type & listing type embeddings for long term personalization.

Listing Embedding

【論文閱讀】Real-time Personalization using Embeddings for Search Ranking at AirbnbListing EmbeddingUser-type & Listing-type Embeddings

圖1表示了一個以Li為中心的點選序列。這部分的基本思路是Skip-gram Model。

Skip-gram Negative Sampling(SGNS)

所需最大化的目标函數為：

【論文閱讀】Real-time Personalization using Embeddings for Search Ranking at AirbnbListing EmbeddingUser-type & Listing-type Embeddings

m m m是標明的中心前後視窗的長度。 P ( L j ∣ L i ) P(L_j|L_i) P(Lj∣Li)的公式如下(Softmax)：

【論文閱讀】Real-time Personalization using Embeddings for Search Ranking at AirbnbListing EmbeddingUser-type & Listing-type Embeddings

偏導 ∇ P ( l j ∣ l i ) ∇P(l_j|l_i) ∇P(lj∣li)的時間複雜度 O ( n ) O(n) O(n)太高，是以使用負采樣的方法來簡化。負采樣是指把Softmax替換成：

P ( l j ∣ l i ) = σ ( u i T v j ) ∏ k = 1 N σ ( − u i T v k ) P(l_j|l_i) = \sigma(u_i^{T}v_j)\prod_{k=1}^N \sigma(-u_i^Tv_k) P(lj∣li)=σ(uiTvj)k=1∏Nσ(−uiTvk)

其中， σ ( x ) = 1 1 + e − x \sigma(x) = {1\over{1+e^{-x}}} σ(x)=1+e−x1， N N N決定了在每一個正樣本中采多少負樣本。是以，公式1所示的目标函數可以被改寫為：

【論文閱讀】Real-time Personalization using Embeddings for Search Ranking at AirbnbListing EmbeddingUser-type & Listing-type Embeddings

作者依據Airbnb的業務特點對公式3做了2點補充，相當于多目标融合政策。所加的兩項含義如下：

第三項：将Booked List作為global Context（畢竟實際業務不能隻看CTR，還要以CVR為導向）；
第四項：由于 D n D_n Dn和 D p D_p Dp極有包含不同的Listing，故再從Listing l l l的Market中做負采樣。

【論文閱讀】Real-time Personalization using Embeddings for Search Ranking at AirbnbListing EmbeddingUser-type & Listing-type Embeddings
對于冷啟動問題采用K近鄰的思路解決(K=3)。可以覆寫98%的冷啟動樣本。

User-type & Listing-type Embeddings

未完待續…

【論文閱讀】Real-time Personalization using Embeddings for Search Ranking at AirbnbListing EmbeddingUser-type & Listing-type Embeddings

Listing Embedding

Skip-gram Negative Sampling(SGNS)

User-type & Listing-type Embeddings

繼續閱讀

【分類算法】什麼是分類算法定義分類與聚類分類過程方法

分類算法的評價名額

K-近鄰算法以及圖像分類應用

weka之NB算法

使用weka的select attribute

weka中分類器算法

在weka中內建自己的算法

【多變量線性回歸】學習記錄序思路實作終

申請評分模型拒絕推斷（RI）方法申請評分模型拒絕推斷（RI）方法

論文閱讀筆記（三）：Research on Network Attack Effect Evaluation Based on Confrontational Perspective一. 論文簡介二. 創新點和貢獻：三. 相關領域的概述(related work)四. 作者的方案五. 主要的資訊流（approach）六. 總結

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

【趨高機器視覺】機器視覺技術原了解析及解決方案

吳恩達 coursera ML 第七課總結+作業答案前言目錄正文模型表示作業答案

XGBoost Plotting API以及GBDT組合特征實踐 XGBoost Plotting API以及GBDT組合特征實踐

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

【論文閱讀】Real-time Personalization using Embeddings for Search Ranking at AirbnbListing EmbeddingUser-type &amp; Listing-type Embeddings

Listing Embedding

Skip-gram Negative Sampling(SGNS)

User-type & Listing-type Embeddings

繼續閱讀

【論文閱讀】Real-time Personalization using Embeddings for Search Ranking at AirbnbListing EmbeddingUser-type & Listing-type Embeddings