先來段華師大MBA校教育中心的對原文作者的介紹。
陳運文是盛大文學首席資料官(CDO),在加入盛大集團之前,他曾在百度公司搜尋技術部任職,負責百度的語義分析算法、搜尋資料分析、相關性排序等核心技術研發工作。陳運文博士畢業于複旦大學計算機系。
看過他2篇文章,其中有和我分析百度F1-6的方法之一相似。是以仔細注解了陳博使用搜尋點選模型的内容。
以下雙下劃線後的内容均為鄙人的注解。
ClickModel的使用
使用搜尋點選模型
使用者的搜尋點選模型(ClickModel)其實是一個非常大的話題,涉及到使用者查詢滿意度的模組化和分析。
百度真實網頁權重裡有一個satisfyScore(滿意度打分),是以搜尋點選行為不僅是提升點選權重,連帶提高滿意度權重。
在今天的搜尋引擎技術中,通過ClickModel衍生出了衆多的功能,包括搜尋滿意度的自動監控、搜尋結果的自動調權調序等。
這裡提到了搜尋點選模型會自動改變排名。
而這些技術的出發點都是UserBehavior(使用者行為)資料。
在Session資訊(asearchsession一次搜尋周期資訊)裡,使用者的點選行為往往能提供豐富的資訊:
百度網頁搜尋一次完整的搜尋周期包含大量資訊,有查詢詞,搜尋結果的标簽,标題,連結,高度、寬度,模版,排名,資料政策ID,點選校驗參數,時間戳,官網認證辨別,何種搜尋結果,随機樣本ID,查詢ID,付費名,是否百度首頁,是否登入百度賬号,搜尋形式,搜尋框位置,字元編碼,輸入耗時等幾十項資訊。
在搜尋結果從上至下被使用者浏覽的過程中,當被點選的結果中間出現了跳躍,例如Query1(第1次搜尋)對應的自然排序結果是Result1(第1個結果),Result2(第2個結果),Result3(第3個結果)…,但是如果大量使用者的點選是Result1,Result3,則Result2的相關性可能存在問題;
意思是點選第1、3個結果,不但可以提升第1、3個結果的權重,還可以降低第2個結果的權重。是以對付競争對手快速點選一個辦法是大量點選其他結果。
另外一種情況是,如果同一個Query産生了一次點選後,間隔一段時間後再次出現了對後面結果的點選,則也許說明了之前結果的滿足度不夠高。
一種在搜尋結果頁降低競争對手滿意度權重的方式,先點選對方的結果,隔段時間再點自己網站的結果。
在同一個Session裡,使用者發生主動Query變換(或稱為QueryRe-write)也往往能說明問題,前面的Query如果搜尋結果品質不高,則很多使用者會選擇修改查詢詞,此時前面被點選的Title(搜尋結果标題)重要程度往往不如後續的Title,等等各類場景很豐富。
另一種一石二鳥的辦法是先搜尋一個競争對手排名好的關鍵詞,點了之後,更換另一個自己網站的相關詞點選,亦可降低對方網站的滿意度。
以上各類的ClickModel思想雖然在實際線上系統中被廣泛運用,但競賽中沒有提供更詳細的資訊,包括點選結果在搜尋中的排序(對于分析點選模型至關重要)、點選發生的時間、點選停留間隔、使用者的Cookieid/Userid(暫存使用者資訊ID/使用者ID)等,限制了發揮,真實應用裡,通過ClickModel來對使用者查詢意圖的把握,應該可以更深入的進行挖掘。
很久沒寫SEO技術的文章了,這次看到陳運文博士獲得CIKMCompetition2014(2014年國際資料挖掘競賽)冠軍,覺得在NLP(自然語言處理)成熟以前,傳統的算法仍然比較重要。