天天看點

《大規模元搜尋引擎技》—導讀

近年來,網際網路(world wide web,簡稱web)已經成為最大的資訊源, 開發先進的搜尋工具一直是網際網路(internet)技術的一項關鍵研究和開發工作。由于google和yahoo!等主流搜尋引擎的普及,目前在web上的搜尋工具中,搜尋引擎是人們最為熟知的。雖然這些主流搜尋引擎非常成功,但也存在許多嚴重的局限性。例如,每個搜尋引擎僅能覆寫web上全部可用内容的一小部分;其基于爬蟲的技術很難完全達到所謂的深層網(deep web,也稱為深網),雖然這方面最近取得了很大的進展并且緊跟web内容的變化和擴充而發展。

本書所介紹的大規模元搜尋引擎技術具有克服這些主流搜尋引擎局限性的潛力。元搜尋引擎是一個支援統一通路一些現有搜尋引擎的搜尋系統。本質上,元搜尋引擎将接收到的查詢發送給其他的搜尋引擎,當這些被調用的搜尋引擎傳回結果之後,元搜尋引擎将這些結果聚集為一個排序清單并展現給使用者。雖然開發元搜尋引擎的最初動力是其結合多個搜尋引擎的搜尋範圍的能力,但它還有更多的益處,如可以獲得更好、更新的結果,能夠通路深層網。

本書重點關注大規模元搜尋引擎(large-scale metasearch engine)的概念。這種元搜尋引擎連接配接成千上萬個搜尋引擎。建構和維護大規模元搜尋引擎需要先進的元搜尋引擎技術,使其一些關鍵部件具有高度可擴充性和自動化解決方案。本書的目的就是廣泛而深入地介紹大規模元搜尋引擎技術,對作為web搜尋的競争技術的大規模元搜尋引擎技術的可行性進行了強有力的論證。本書将詳細讨論大規模元搜尋引擎的主要部件:搜尋引擎選擇,這一部件用于識别最有可能為任何給定查詢提供有用結果的各個搜尋引擎;搜尋引擎加入,這一部件與各個搜尋引擎進行互動,包括從元搜尋引擎發送查詢給本地搜尋引擎以及從不同的搜尋引擎傳回的響應頁面中提取搜尋結果;結果合并,這一部件将不同搜尋引擎傳回的結果合并為一個排序清單。大規模元搜尋引擎技術包括高度準确和可擴充的搜尋引擎選擇算法、高度自動化的搜尋引擎加入技術和高效的結果合并方法。

本書可作為web資料管理和資訊檢索等web技術相關課程的部分内容,也可作為web搜尋領域的研究人員和開發人員的參考書。

緻謝

對資料管理系列叢書編輯m. tamer zsu博士表示衷心的感謝,他仔細閱讀了全部書稿,并提出了非常有價值及建設性的建議,這些建議對改進本書有很大的幫助。感謝hongkun zhao和can lin,他們閱讀了部分書稿并提出寶貴意見。還要感謝本書的編輯diane cerra在寫作過程中給予的幫助。

meng weiyi和clement t.yu

2010年11月

‖目 錄

叢書前言

譯者序

前 言

作者簡介

[第1章 緒言

  1.1 web上查找資訊

    1.1.1 浏覽

  [1.2 文字檢索概述

    1.2.1 系統體系結構

    1.2.2 文檔表示

    1.2.3 文檔-查詢比對

    1.2.4 查詢處理

   [ 1.3 搜尋引擎技術概述

    1.3.1 web的專門特性

    1.3.2 web爬蟲

    1.3.3 利用标簽資訊

    1.3.4 利用連結資訊

[第2章 元搜尋引擎體系結構

  [2.3 挑戰環境

    2.3.1 異構及其影響

第3章 搜尋引擎選擇

  3.1 粗糙表記方法

  3.2 基于學習的方法

  3.3 基于樣本文檔的方法

  3.4 統計表記方法

    3.4.1 d-wise

    3.4.2 cori net

    3.4.3 ggloss

    3.4.4 潛在有用文檔數目

    3.4.5 最相似文檔的相似度

    3.4.6 搜尋引擎表記生成

第4章 搜尋引擎加入

  4.1 搜尋引擎連接配接

    4.1.1 搜尋引擎的html表單标簽

    4.1.2 搜尋引擎自動連接配接

  4.2 搜尋結果抽取

    4.2.1 半自動包裝器生成

    4.2.2 自動包裝器生成

第5章 結果合并

  5.1 基于完全文檔内容的合并

  5.2 基于搜尋結果記錄的合并

  5.3 基于結果本地排序的合并

    5.3.1 基于輪轉的方法

    5.3.2 基于相似度轉換的方法

    5.3.3 基于投票的方法

    5.3.4 基于機器學習的方法

第6章 總結與後續研究

參考文獻

繼續閱讀