[paper share]KDD15 - Interpreting Advertiser Intent in Sponsored Search

Interpreting Advertiser Intent in Sponsored Search

主要内容是搜尋廣告的相關性預估模型，使用learning to rank的方法。亮點在于使用了使用者query和廣告關鍵詞的自然搜尋結果特征來訓練相關性預估模型。

背景：相關性預估 -> 使用者體驗 + 收入，好的相關性有助于搜尋引擎好的使用者體驗和長期持續的收入。傳統做法：特征來源主要來自 query + 搜尋廣告，通過了解使用者query和廣告，來判斷相關性。本文研究表明挖掘客戶意圖可以顯著提升相關性利用客戶購買詞的搜尋結果，特征來源擴充為：query + 搜尋廣告 + 客戶購買詞 + 購買詞搜尋結果線下 auc+43.2% 線上2.7%

搜尋廣告背景：

搜尋引擎背景：精準比對 + 模糊比對（同義詞，擴充詞，rewrite）點選計費cpc 不相關廣告，傷害使用者體驗：使用者搜尋天氣，出廣告“羽絨服“ ，使用者意圖為天氣查詢使用者搜尋京東，出蘇甯廣告

量化使用者相關性可以從以下幾方面着手：

使用者搜尋query，使用者意圖，短文本，意圖難以準确識别（輔助資訊：session，點選資訊，query校正等）
廣告創意，資訊較準确反映客戶意圖，廣告title資訊也不足，落地頁品質較差
落地頁
廣告關鍵詞

四要素

本文緻力了解廣告關鍵詞

基本假設： 1，客戶購買詞反映客戶的基本意圖和流量需求 2，搜尋引擎query了解能力較強

使用者相關：使用者query + 使用者query自然結果廣告相關：廣告關鍵詞 + 廣告關鍵詞自然結果 + 廣告創意 + 廣告落地頁

雙刃劍：？？客戶的購買詞真是表達了客戶想要reach的使用者以及想要獲得的那部分流量，創意和url相對固定帶來的問題是：

客戶亂買詞肯定引起相關性下降，比如，蘇甯客戶購買“京東關鍵詞”
客戶買詞會潛在提高相關性，啤酒和尿布的故事
問題在于如何評價是否相關，主觀因素太強！！！

做法：

使用者query和廣告關鍵詞取前40個自然結果
去自然結果頁的title，snippet，描述，ODP分類，url
去停用詞，進行porter stemmer主幹提取【1】
将以上的詞幹連接配接，形成bow
使用LambdaMART進行訓練【2】

baseline 特征，共1+3*6=19個：

query長度
query 和 titile 的單詞重合度，單詞的bigram重合度，字元重合度，字元bigram重合度，排序單詞bigram重合度，cosine距離
query 和 desc的單詞重合度，單詞的bigram重合度，字元重合度，字元bigram重合度，排序單詞bigram重合度，cosine距離
query 和 url的單詞重合度，單詞的bigram重合度，字元重合度，字元bigram重合度，排序單詞bigram重合度，cosine距離

重合度計算公式：

新增特征，共6*9=54個：

創意标題與廣告kwd搜尋結果title，創意描述與廣告kwd搜尋結果描述，創意描述與廣告kwd搜尋結果snipet
Landing Page title與廣告kwd搜尋結果title，Landing Page正文與廣告kwd搜尋結果描述，Landing Page正文與廣告kwd搜尋結果snipet
Query與廣告kwd搜尋結果title，Query與廣告kwd搜尋結果描述，Query與廣告kwd搜尋結果snipet

使用query的自然結果輔助了解使用者意圖，query自然結果與廣告關鍵詞的重合特征自然結果會傳回網頁分類，是以query的自然結果和廣告kwd的自然結果會傳回兩個分類清單，可以計算分類相關性：

這樣可以捕捉語義升相關性，比如鞋子和靴子，按照這種分類相關性，可以得到較好的結果廣告的domain在使用者query的自然結果中出現，表明結果較相關廣告的domian在廣告關鍵詞的自然結果中出現，表明廣告主意圖與客戶購買詞較相關

新增特征2，18 + 1 + 2= 21：

query自然結果title和kwd自然結果title，query自然結果desc和kwd自然結果desc，query自然結果snip和kwd自然結果snip
自然結果類别相關性
domain 重合個數

訓練集： 128萬人工标注(query, ad) pairs，打分1-5,5表示最相關，32萬hold-out

實驗結果：模糊比對下準确率提升比精準比對大，因為模糊比對下，使用更多的資訊，有助于提升相關性判斷資訊增加query search特征，效果好很多，說明query seach特征作為連接配接資訊，更多的連接配接了廣告和query的資訊對于本來就高相關性的廣告，預估效果更好，原因是高相關性的廣告的自然結果交叉特征中存在更多的重合項

線上真實結果：精準比對下基本上無效果，說明精準比對下，工業産品已經處理很好了模糊比對下QS提升明顯

LambdaMART可以看出各個特征的重要性，最重要的三個特征，都是QS特征： i) ad domain count in query organic results, 廣告域名在query自然結果出現次數 ii) ordered bigram overlap between snippets of organic results for query and ad keyword ， snippet重合度 iii) ad domain count in ad keyword organic results. 廣告域名與廣告關鍵詞搜尋結果比對度 query特征中最重要的是： i) word unigram overlap between query and snippets in organic results for ad keyword ii) order word bigrams between query and titles of the organic results for ad keyword.

【1】 http://qinxuye.me/article/porter-stemmer/ 【2】http://blog.csdn.net/huagong_adu/article/details/40710305

[paper share]KDD15 - Interpreting Advertiser Intent in Sponsored Search

繼續閱讀

簡單文檔分類——樸素貝葉斯算法樸素貝葉斯算法簡單文檔分類執行個體步驟總結樸素貝葉斯分類調用(sklearn)

【分類算法】什麼是分類算法定義分類與聚類分類過程方法

分類算法的評價名額

K-近鄰算法以及圖像分類應用

weka之NB算法

使用weka的select attribute

weka中分類器算法

在weka中內建自己的算法

【多變量線性回歸】學習記錄序思路實作終

申請評分模型拒絕推斷（RI）方法申請評分模型拒絕推斷（RI）方法

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

【趨高機器視覺】機器視覺技術原了解析及解決方案

吳恩達 coursera ML 第七課總結+作業答案前言目錄正文模型表示作業答案

XGBoost Plotting API以及GBDT組合特征實踐 XGBoost Plotting API以及GBDT組合特征實踐

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告