天天看點

[paper share]KDD15 - Interpreting Advertiser Intent in Sponsored Search

Interpreting Advertiser Intent in Sponsored Search

主要内容是搜尋廣告的相關性預估模型,使用learning to rank的方法。亮點在于使用了使用者query和廣告關鍵詞的自然搜尋結果特征來訓練相關性 預估模型。

背景: 相關性預估 -> 使用者體驗 + 收入,好的相關性有助于搜尋引擎好的使用者體驗和長期持續的收入。 傳統做法: 特征來源主要來自 query + 搜尋廣告,通過了解使用者query和廣告,來判斷相關性。 本文研究表明挖掘客戶意圖可以顯著提升相關性 利用客戶購買詞的搜尋結果,特征來源擴充為:query + 搜尋廣告 + 客戶購買詞 + 購買詞搜尋結果 線下 auc+43.2%  線上2.7%

搜尋廣告背景:

搜尋引擎背景: 精準比對 + 模糊比對(同義詞,擴充詞,rewrite) 點選計費cpc 不相關廣告,傷害使用者體驗:     使用者搜尋 天氣, 出廣告“羽絨服“ ,使用者意圖為天氣查詢     使用者搜尋京東,出蘇甯廣告

量化使用者相關性可以從以下幾方面着手:

  • 使用者搜尋query,使用者意圖,短文本,意圖難以準确識别(輔助資訊:session,點選資訊,query校正等)
  • 廣告創意 , 資訊較準确反映客戶意圖,廣告title資訊也不足,落地頁品質較差
  • 落地頁
  • 廣告關鍵詞

四要素

本文緻力 了解廣告關鍵詞

基本假設: 1, 客戶購買詞反映客戶的基本意圖和流量需求 2,搜尋引擎query了解能力較強

使用者相關 : 使用者query + 使用者query自然結果 廣告相關 : 廣告關鍵詞 + 廣告關鍵詞自然結果 + 廣告創意 + 廣告落地頁

雙刃劍: ?? 客戶的購買詞真是表達了客戶想要reach的使用者以及想要獲得的那部分流量,創意和url相對固定 帶來的問題是:

  • 客戶亂買詞肯定引起相關性下降,比如,蘇甯客戶購買“京東關鍵詞”
  • 客戶買詞會潛在提高相關性,啤酒和尿布的故事
  • 問題在于如何評價是否相關,主觀因素太強!!!

做法:

  1. 使用者query和廣告關鍵詞取前40個自然結果
  2. 去自然結果頁的title,snippet,描述,ODP分類,url
  3. 去停用詞,進行porter stemmer主幹提取【1】
  4. 将以上的詞幹連接配接,形成bow
  5. 使用LambdaMART進行訓練【2】

baseline 特征,共1+3*6=19個 : 

  • query長度
  • query 和 titile 的 單詞重合度,單詞的bigram重合度,字元重合度,字元bigram重合度,排序單詞bigram重合度,cosine距離
  • query 和 desc的 單詞重合度,單詞的bigram重合度,字元重合度,字元bigram重合度,排序單詞bigram重合度,cosine距離
  • query 和 url的 單詞重合度,單詞的bigram重合度,字元重合度,字元bigram重合度,排序單詞bigram重合度,cosine距離

    重合度計算公式:         

新增特征,共6*9=54個:

  • 創意标題與廣告kwd搜尋結果title,創意描述與廣告kwd搜尋結果描述,創意描述與廣告kwd搜尋結果snipet
  • Landing Page title與廣告kwd搜尋結果title,Landing Page正文與廣告kwd搜尋結果描述,Landing Page正文與廣告kwd搜尋結果snipet
  • Query與廣告kwd搜尋結果title,Query與廣告kwd搜尋結果描述,Query與廣告kwd搜尋結果snipet

使用query的自然結果輔助了解使用者意圖,query自然結果與廣告關鍵詞的重合特征 自然結果會傳回網頁分類,是以query的自然結果和廣告kwd的自然結果會傳回兩個分類清單,可以計算分類相關性:

這樣可以捕捉語義升相關性,比如 鞋子和靴子,按照這種分類相關性,可以得到較好的結果 廣告的domain在使用者query的自然結果中出現,表明結果較相關 廣告的domian在廣告關鍵詞的自然結果中出現,表明廣告主意圖與客戶購買詞較相關

新增特征2,18 + 1 + 2= 21:

  • query自然結果title和kwd自然結果title,query自然結果desc和kwd自然結果desc,query自然結果snip和kwd自然結果snip
  • 自然結果類别相關性
  • domain 重合個數

訓練集: 128萬人工标注(query, ad) pairs,打分1-5,5表示最相關,32萬hold-out

實驗結果:     模糊比對下準确率提升比精準比對大,因為模糊比對下,使用更多的資訊,有助于提升相關性判斷資訊     增加query search特征,效果好很多,說明query seach特征作為連接配接資訊,更多的連接配接了廣告和query的資訊     對于本來就高相關性的廣告,預估效果更好,原因是高相關性的廣告的自然結果交叉特征中存在更多的重合項

線上真實結果:     精準比對下基本上無效果,說明精準比對下,工業産品已經處理很好了     模糊比對下QS提升明顯     

LambdaMART可以看出各個特征的重要性,最重要的三個特征,都是QS特征:     i) ad domain count in query organic results, 廣告域名在query自然結果出現次數     ii) ordered bigram overlap between snippets of organic results for query and ad keyword , snippet重合度    iii) ad domain count in ad keyword organic results. 廣告域名與廣告關鍵詞搜尋結果比對度 query特征中最重要的是:     i) word unigram overlap between query and snippets in organic results for ad keyword     ii) order word bigrams between query and titles of the organic results for ad keyword.

【1】 http://qinxuye.me/article/porter-stemmer/ 【2】http://blog.csdn.net/huagong_adu/article/details/40710305

繼續閱讀