Interpreting Advertiser Intent in Sponsored Search
主要内容是搜尋廣告的相關性預估模型,使用learning to rank的方法。亮點在于使用了使用者query和廣告關鍵詞的自然搜尋結果特征來訓練相關性 預估模型。
背景: 相關性預估 -> 使用者體驗 + 收入,好的相關性有助于搜尋引擎好的使用者體驗和長期持續的收入。 傳統做法: 特征來源主要來自 query + 搜尋廣告,通過了解使用者query和廣告,來判斷相關性。 本文研究表明挖掘客戶意圖可以顯著提升相關性 利用客戶購買詞的搜尋結果,特征來源擴充為:query + 搜尋廣告 + 客戶購買詞 + 購買詞搜尋結果 線下 auc+43.2% 線上2.7%
搜尋廣告背景:
搜尋引擎背景: 精準比對 + 模糊比對(同義詞,擴充詞,rewrite) 點選計費cpc 不相關廣告,傷害使用者體驗: 使用者搜尋 天氣, 出廣告“羽絨服“ ,使用者意圖為天氣查詢 使用者搜尋京東,出蘇甯廣告
量化使用者相關性可以從以下幾方面着手:
- 使用者搜尋query,使用者意圖,短文本,意圖難以準确識别(輔助資訊:session,點選資訊,query校正等)
- 廣告創意 , 資訊較準确反映客戶意圖,廣告title資訊也不足,落地頁品質較差
- 落地頁
- 廣告關鍵詞
四要素
本文緻力 了解廣告關鍵詞
基本假設: 1, 客戶購買詞反映客戶的基本意圖和流量需求 2,搜尋引擎query了解能力較強
使用者相關 : 使用者query + 使用者query自然結果 廣告相關 : 廣告關鍵詞 + 廣告關鍵詞自然結果 + 廣告創意 + 廣告落地頁
雙刃劍: ?? 客戶的購買詞真是表達了客戶想要reach的使用者以及想要獲得的那部分流量,創意和url相對固定 帶來的問題是:
- 客戶亂買詞肯定引起相關性下降,比如,蘇甯客戶購買“京東關鍵詞”
- 客戶買詞會潛在提高相關性,啤酒和尿布的故事
- 問題在于如何評價是否相關,主觀因素太強!!!
做法:
- 使用者query和廣告關鍵詞取前40個自然結果
- 去自然結果頁的title,snippet,描述,ODP分類,url
- 去停用詞,進行porter stemmer主幹提取【1】
- 将以上的詞幹連接配接,形成bow
- 使用LambdaMART進行訓練【2】
baseline 特征,共1+3*6=19個 :
- query長度
- query 和 titile 的 單詞重合度,單詞的bigram重合度,字元重合度,字元bigram重合度,排序單詞bigram重合度,cosine距離
- query 和 desc的 單詞重合度,單詞的bigram重合度,字元重合度,字元bigram重合度,排序單詞bigram重合度,cosine距離
- query 和 url的 單詞重合度,單詞的bigram重合度,字元重合度,字元bigram重合度,排序單詞bigram重合度,cosine距離
重合度計算公式:
新增特征,共6*9=54個:
- 創意标題與廣告kwd搜尋結果title,創意描述與廣告kwd搜尋結果描述,創意描述與廣告kwd搜尋結果snipet
- Landing Page title與廣告kwd搜尋結果title,Landing Page正文與廣告kwd搜尋結果描述,Landing Page正文與廣告kwd搜尋結果snipet
- Query與廣告kwd搜尋結果title,Query與廣告kwd搜尋結果描述,Query與廣告kwd搜尋結果snipet
使用query的自然結果輔助了解使用者意圖,query自然結果與廣告關鍵詞的重合特征 自然結果會傳回網頁分類,是以query的自然結果和廣告kwd的自然結果會傳回兩個分類清單,可以計算分類相關性:
這樣可以捕捉語義升相關性,比如 鞋子和靴子,按照這種分類相關性,可以得到較好的結果 廣告的domain在使用者query的自然結果中出現,表明結果較相關 廣告的domian在廣告關鍵詞的自然結果中出現,表明廣告主意圖與客戶購買詞較相關
新增特征2,18 + 1 + 2= 21:
- query自然結果title和kwd自然結果title,query自然結果desc和kwd自然結果desc,query自然結果snip和kwd自然結果snip
- 自然結果類别相關性
- domain 重合個數
訓練集: 128萬人工标注(query, ad) pairs,打分1-5,5表示最相關,32萬hold-out
實驗結果: 模糊比對下準确率提升比精準比對大,因為模糊比對下,使用更多的資訊,有助于提升相關性判斷資訊 增加query search特征,效果好很多,說明query seach特征作為連接配接資訊,更多的連接配接了廣告和query的資訊 對于本來就高相關性的廣告,預估效果更好,原因是高相關性的廣告的自然結果交叉特征中存在更多的重合項
線上真實結果: 精準比對下基本上無效果,說明精準比對下,工業産品已經處理很好了 模糊比對下QS提升明顯
LambdaMART可以看出各個特征的重要性,最重要的三個特征,都是QS特征: i) ad domain count in query organic results, 廣告域名在query自然結果出現次數 ii) ordered bigram overlap between snippets of organic results for query and ad keyword , snippet重合度 iii) ad domain count in ad keyword organic results. 廣告域名與廣告關鍵詞搜尋結果比對度 query特征中最重要的是: i) word unigram overlap between query and snippets in organic results for ad keyword ii) order word bigrams between query and titles of the organic results for ad keyword.
【1】 http://qinxuye.me/article/porter-stemmer/ 【2】http://blog.csdn.net/huagong_adu/article/details/40710305