主要内容:對通用搜尋引擎的查詢推薦技術的方法、評價進行了總結
具體内容:
“查詢推薦”的不同英文叫法:Query Suggestion、Term Suggestion、Query Recommendation、Query Substitution、Query Rewriting
查詢推薦的任務:找出和使用者查詢相似的query,以便更好地表達使用者查詢意圖,供使用者便捷輸入
三種技術方法:
1. 基于文檔的方法:通過處理query搜尋出來的文檔,以此作為回報,進一步了解使用者意圖,擴充query
(1)全局文檔分析:方法如題目
(2)局部文檔分析:說一個更通用的名字,是僞相關回報,用搜尋結果的前N篇文章作為文檔集合,擴充query,從僞相關文檔中進行降維是一個難點,LCA等
(3)基于語言學資源的分析:說白了就是用wordnet或者hownet或者wiki來做同義詞擴充
2. 基于日志的方法:日志作為使用者的點選行為的記錄,能夠忠實的反映使用者的真實意圖。
(1)基于session的方法
簡單地說,就是使用者搜了什麼之後還搜尋了什麼。往往最後搜尋的那個query是能夠滿足使用者當時需求的query。
這個方法,session的判定是個難點
(2)基于click的方法:點選模型
<query, click1, click2....>,這樣的query和點選向量組成的資料結構,可以用一些距離函數(如:餘弦距離)來計算query之間的相似度
這種方法,使用者click的url很多,造成向量的次元很多,降維仍然是一個問題,兩種降維途徑:1. 聚類;2. 矩陣分解
(3)基于時間分布的方法
即統計query的時間分布,如:在情人節那天搜尋“巧克力”的人會比較多。不過這個一般隻能作為補充。
評價方法:
基本思路還是人工建立評測集合(或者找國際标準評測集合,如trec),然後算準确率、召回率、NDCG等