天天看點

《大規模元搜尋引擎技》——1.4 本書概述

本節書摘來自華章出版社《大規模元搜尋引擎技》一書中的第1章,第1.4節,作者 [美]孟衛一(weiyi meng), 紐約州立大學, 賓漢姆頓分校於德(clement t.yu),伊利諾伊大學芝加哥分校,更多章節内容可以通路雲栖社群“華章計算機”公衆号檢視。

本書的其餘部分将專注于大規模元搜尋引擎技術。現在簡述其餘各章。

第2章首先概述一個典型的大規模元搜尋引擎的主要部件。這些部件包括搜尋引擎選擇器、搜尋引擎加入器和結果合并器。通過對元搜尋引擎和主流搜尋引擎兩種搜尋技術優點和缺點的仔細分析,這一章試圖提出充分理由來闡述元搜尋引擎技術可以作為主流搜尋引擎之外的另一種可行搜尋技術。最後,鑒于元搜尋引擎建構于web環境,這一章将對web環境進行讨論,進而對建構大規模元搜尋引擎所面臨的挑戰給出一些見解。

第3章集中讨論搜尋引擎選擇器。對任何給定的使用者查詢,這個部件的目标是在元搜尋引擎使用的那些搜尋引擎中,确定哪個搜尋引擎最有可能傳回有用的結果。這一章将解決三個重要的問題:如何代表每個搜尋引擎的内容;如何使用代表資訊選擇搜尋引擎;如何生成代表資訊。這一章将介紹幾種類型的方法但重點讨論使用搜尋詞的詳細統計資料來代表搜尋引擎内容的方法。

第4章讨論把搜尋引擎加入元搜尋引擎所需的技術。将涉及兩個主要問題。第一是關于元搜尋引擎與其每個成員搜尋引擎之間建立通信的問題。基本上,一個元搜尋引擎需要把使用者查詢傳給每個成員搜尋引擎,根據每個成員搜尋引擎格式要求進行必要的查詢格式改變,并接收每個成員搜尋引擎傳回的響應頁面。第二個問題是關于從響應頁面提取搜尋結果記錄,每個記錄對應于一個檢索頁面。這一章将介紹幾種結果提取技術。

第5章介紹各種搜尋結果合并算法。這些算法沿着幾個次元涵蓋廣泛的場景。第一個次元是有關使用每個結果的何種類型資訊進行合并,資訊種類可從每個結果的本地排序,到每個結果的标題和概覽,到每個結果的完整文檔。一些合并算法同時使用多種類型的資訊。第二個次元是各成員搜尋引擎傳回查詢的文檔之間的重疊度,範圍可從沒有重疊到有一些重疊,到完全相同的文檔集。

第6章總結本書主要論述的内容,讨論元搜尋引擎技術未來的發展方向,列出一些具有挑戰性的有待研究的具體問題。

繼續閱讀