天天看點

搜尋引擎性能評價——Cranfield評價體系

效率層面的考察主要包括使用者需求是否得到很快的響應,為滿足使用者需求耗費了多大規模的硬體資源等。雖然這方面的研究内容對于搜尋引擎的建構至關重要,但是對于搜尋引擎使用者而言,這方面的内容在搜尋引擎技術當今的發展階段并非關注的核心内容……重點……在對搜尋引擎系統檢索效果的評價上。

英國Cranfield工程在20世紀50年代末到60年代中期所建立的基于查詢樣例集、正确答案集和語料庫的評測方案,則真正使資訊檢索成為一門實證性質的學科,也由此确立了“評價”在資訊檢索研究中的核心地位。其評價方法一般被稱為Cranfield方法架構。

Cranfield方法一直到今天也被廣泛地應用于包括搜尋引擎在内的大多數資訊檢索系統評價工作中。有美國國防部進階研究計劃署(DARPA)與美國國家标準和技術局共同舉辦的TREC(Text Retrieval Conference)就是一直基于此方法組織的資訊檢索評測和技術交流論壇。TREC是目前最大規模的文本資訊檢索評測平台。

Cranfiled方法指出,資訊檢索系統的“評價”應由如下3個環節組成:

首先,确定查詢樣例集合,抽取最能表示使用者資訊需求的一部分查詢樣例建構一個規模恰當的集合;  ()

其次,針對查詢樣例集合,在檢索系統需要檢索的語料庫中尋找對應的答案,即進行正确答案集合的标注;

最後,将查詢樣例集合和預料庫輸入檢索系統,系統回報檢索結果,再利用評價名額對檢索系統結果和正确答案的接近程度進行評價,給出最終的用數值表示的評價結果。

通過對Cranfield體系施行過程的描述,可以看出,使用Cranfield體系對資訊檢索系統進行性能評價需要以下4個必要的因素。

語料庫集合;

查詢樣例集合;

正确答案集合;

評價名額。

1. 對于搜尋引擎系統而言,語料庫集合就是指網際網路資料的全體,搜尋引擎需要利用網頁抓取子系統自行擷取網際網路資料。

2.查詢樣例集合建構:(真實性,代表性,資訊需求表達的完整性)

 ……雖然搜尋引擎每日需要處理的使用者查詢數目十分龐大,但是進一步觀察查詢頻率的分布時,将會發現,搜尋引擎查詢頻度的分布在很大程度上符合“二八定律”(Pareto principle),這帶來的啟示是:可以使用少量的高頻查詢樣例集合來代表大多數使用者的查詢請求。

……由時任IBM公司進階研發人員的Broder于2003年提出的資訊需求分類體系:

導航類:使用者檢索時具有确定的檢索目标頁面,目的是查找某個已知存在的頁面資源;

資訊類:使用者檢索時沒有确定的檢索目标頁面,目的是查找與某個主題相關的資訊;

事務類:使用者檢索時沒有确定的檢索目标頁面,目的是查找與某個特定需求相關的資源。

3. 正确答案集合建構

……針對大規模語料庫集合中正确答案的标注問題,TREC總結出了一整套較為完善的解決方案和評價體系,其核心被稱為pooling technology……對于搜尋引擎性能評價任務而言,手工标注正确答案的環節是必不可少的,但手工标注的準确性不可避免地受到标注人員知識背景、了解水準等因素的影響,這一定程度上阻礙了搜尋引擎性能評價所期望的客觀、公正目标的達成。針對此,不少自動結果标注的方法出現,但都由于選擇的标注方式不可靠而沒有獲得成功。

4. 搜尋引擎評價名額

對于傳統資訊檢索系統而言,最基本的評價名額是由Kent等人于1955年提出的”Precision / Recall“名額,如果我們定義如下兩個文檔集合:

Retrieved集合,待評測檢索系統處理查詢樣例傳回的結果集合。

Relevant集合,正确答案集合。

搜尋引擎性能評價——Cranfield評價體系
搜尋引擎性能評價——Cranfield評價體系

由此可見,Precition衡量的是檢索系統所傳回的結果清單中正确答案的比例,而Recall衡量的則是正确答案集合中有多大比例的答案在檢索系統中傳回的結果清單中。

……下面是一些搜尋引擎性能評價中常用的評價名額。

1) 前n選精度(Precision at n,[email protected])

搜尋引擎傳回的結果序列前n位結果中正确答案的比例。

2) 前n選成功率(Sucess at n,[email protected])

搜尋引擎結果序列的前n篇結果文檔中能否有正确答案。

3) 首先正确答案排序倒數(Reciprocal Rank of First Correct Answer, RR )

搜尋引擎性能評價——Cranfield評價體系

4) 平均準确率(Average Precision, AP)

搜尋引擎性能評價——Cranfield評價體系

AP名額在很大程度上綜合了Precision和Recall兩方面的因素,可以用來衡量檢索系統對各種資訊需求類型查詢的綜合性能。RR和AP都是着重強調結果序列中最靠前文檔相關程度的評價名額,對于隻有一個正确答案的查詢需求而言,RR=AP。

需要注意的是,以上提到的評價名額在施行過程中隐含了如下的假設:首先,結果池内所有檔案都被手工标注過;其次,對文檔進行手工标注的結果是一個二值化的判斷,即該文檔”是“正确答案或”不是“正确答案。

針對上述兩個假設不滿足的情況,分别有Chris Buckley(2004)等人設計的bpref評價名額和NDCG評價名額。

=================參考:搜尋引擎技術基礎,劉奕群等,清華大學出版社=================

繼續閱讀