吳星搜尋點選模型簡釋

先來段華師大MBA校教育中心的對原文作者的介紹。

陳運文是盛大文學首席資料官(CDO)，在加入盛大集團之前，他曾在百度公司搜尋技術部任職，負責百度的語義分析算法、搜尋資料分析、相關性排序等核心技術研發工作。陳運文博士畢業于複旦大學計算機系。

看過他2篇文章，其中有和我分析百度F1-6的方法之一相似。是以仔細注解了陳博使用搜尋點選模型的内容。

以下雙下劃線後的内容均為鄙人的注解。

ClickModel的使用

使用搜尋點選模型

使用者的搜尋點選模型(ClickModel)其實是一個非常大的話題，涉及到使用者查詢滿意度的模組化和分析。

百度真實網頁權重裡有一個satisfyScore(滿意度打分)，是以搜尋點選行為不僅是提升點選權重，連帶提高滿意度權重。

在今天的搜尋引擎技術中，通過ClickModel衍生出了衆多的功能，包括搜尋滿意度的自動監控、搜尋結果的自動調權調序等。

這裡提到了搜尋點選模型會自動改變排名。

而這些技術的出發點都是UserBehavior(使用者行為)資料。

在Session資訊(asearchsession一次搜尋周期資訊)裡，使用者的點選行為往往能提供豐富的資訊：

百度網頁搜尋一次完整的搜尋周期包含大量資訊，有查詢詞，搜尋結果的标簽，标題，連結，高度、寬度，模版，排名，資料政策ID，點選校驗參數，時間戳，官網認證辨別，何種搜尋結果，随機樣本ID，查詢ID，付費名，是否百度首頁，是否登入百度賬号，搜尋形式，搜尋框位置，字元編碼，輸入耗時等幾十項資訊。

在搜尋結果從上至下被使用者浏覽的過程中，當被點選的結果中間出現了跳躍，例如Query1(第1次搜尋)對應的自然排序結果是Result1(第1個結果),Result2(第2個結果),Result3(第3個結果)…,但是如果大量使用者的點選是Result1,Result3,則Result2的相關性可能存在問題；

意思是點選第1、3個結果，不但可以提升第1、3個結果的權重，還可以降低第2個結果的權重。是以對付競争對手快速點選一個辦法是大量點選其他結果。

另外一種情況是，如果同一個Query産生了一次點選後，間隔一段時間後再次出現了對後面結果的點選，則也許說明了之前結果的滿足度不夠高。

一種在搜尋結果頁降低競争對手滿意度權重的方式，先點選對方的結果，隔段時間再點自己網站的結果。

在同一個Session裡，使用者發生主動Query變換(或稱為QueryRe-write)也往往能說明問題，前面的Query如果搜尋結果品質不高，則很多使用者會選擇修改查詢詞，此時前面被點選的Title(搜尋結果标題)重要程度往往不如後續的Title，等等各類場景很豐富。

另一種一石二鳥的辦法是先搜尋一個競争對手排名好的關鍵詞，點了之後，更換另一個自己網站的相關詞點選，亦可降低對方網站的滿意度。

以上各類的ClickModel思想雖然在實際線上系統中被廣泛運用，但競賽中沒有提供更詳細的資訊，包括點選結果在搜尋中的排序(對于分析點選模型至關重要)、點選發生的時間、點選停留間隔、使用者的Cookieid/Userid(暫存使用者資訊ID/使用者ID)等，限制了發揮，真實應用裡，通過ClickModel來對使用者查詢意圖的把握，應該可以更深入的進行挖掘。

很久沒寫SEO技術的文章了，這次看到陳運文博士獲得CIKMCompetition2014(2014年國際資料挖掘競賽)冠軍，覺得在NLP(自然語言處理)成熟以前，傳統的算法仍然比較重要。

吳星搜尋點選模型簡釋

繼續閱讀

查找算法之二分查找查找算法之二分查找

查找算法學習之二分查找（Python版本）——BinarySearch

CQ V1.0分詞bates(基于雙數組tire樹)—應該是目前最快的中文分詞算法

Command Network(POJ 3164)---定根最小樹形圖模闆題題目描述輸入格式輸出格式輸入樣例輸出樣例分析源程式

開源低帶寬語音編解碼器

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

C++ 第十五周報告1--《冒泡法排序》

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

hdu7108哈希