《大規模元搜尋引擎技(1)》一第1章緒言

本節書摘來自華章出版社《大規模元搜尋引擎技(1)》一書中的第1章，作者［美］孟衛一(weiyi meng)紐約州立大學賓漢姆頓分校於德（clement t.yu）伊利諾伊大學芝加哥分校，更多章節内容可以通路雲栖社群“華章計算機”公衆号檢視

近年來，網際網路（world wide web，環球資訊網，環球網,網絡或web）已經成為最大的資訊源。世界各地的人們經常使用web查找所需要的資訊。實際上，web已經成為人們日常生活的重要組成部分。

從1990年web出現以來，它一直在非常迅速地發展。web可以分為表層網（surface web）和深層網（deep web，也稱為深網；

或hidden web，隐藏網）。表層網是指可以公開和直接通路的，而無須通過注冊、登入或搜尋引擎接口的web頁面（web page，或稱為網頁）集合。通常，每個這樣的網頁都有一個靜态邏輯位址，稱為統一資源定位符（uniform resource locator，url)。表層網中的網頁通常被超連結（hyperlink）連結起來。通過超連結，這些網頁可以被普通web爬蟲（web crawler）　web爬蟲将在1.3.2節讨論。通路到。表層網的準确大小尚未可知，然而被索引的web是表層網的一個子集，根據2010年8月http：//www.worldwidewebsize.com/的估計，這一子集所含的網頁數目可達550億之多。深網的網頁不能被一般的web爬蟲爬取。這些網頁包含的web内容或者不能被公開通路或者是動态生成的。例如，考慮如下情形，某出版商收集了很多以數字格式存放的文章，但是沒有把它們放在表層網（即沒有針對它們的靜态url），通路它們隻能通過出版商的搜尋引擎，因而這些文章屬于深網。使用資料庫系統存儲的資料動态生成的網頁也屬于深網。截至2009年［zillman，p.，2009］，深網的網頁大概有1萬億（1 trillion）。表層網和深網都在迅速擴充。

從20世紀90年代早期開始，如何幫助普通使用者從web查找到所需資訊已經成為web技術領域的中心議題之一。這些年來，衆多的研究者和開發者建立了許多搜尋引擎，它們已經成為深受人們喜愛的可在web上查找所需資訊的工具。搜尋引擎通常是擁有一個簡單查詢接口的易于使用的工具。使用者在搜尋引擎的查詢界面輸入其查詢——通常是反映使用者資訊需求的幾個單詞，然後搜尋引擎從其文檔或資料庫中找出最佳比對。根據搜尋資料的類型，搜尋引擎可分為文檔驅動的搜尋引擎和資料庫驅動的搜尋引擎。前者搜尋文檔（網頁），而後者通過基于web的搜尋接口從資料庫系統搜尋資料項。資料庫驅動的搜尋引擎主要應用于電子商務，如購買汽車或書籍。本書僅關注于搜尋文本文檔的情形。

由于web規模巨大且擴張快速，每個搜尋引擎僅能覆寫其一小部分。例如，最大的網絡搜尋引擎之一的google（http：//www.google.com/）能夠搜尋多達350億網頁（http：//www.worldwidewebsize.com/），但這仍然是整個web的一小部分。人們普遍觀察到的一個現象是不同搜尋引擎覆寫web的不同部分，雖然這些部分有重疊。一個增加網絡搜尋範圍的有效方法是組合多個搜尋引擎的搜尋範圍。執行這種組合的系統稱為元搜尋引擎（metasearch engine）。一個元搜尋引擎可視為支援統一通路多個現有搜尋引擎的系統。在一個使用元搜尋引擎的典型場景中，使用者送出查詢給元搜尋引擎，元搜尋引擎将查詢傳遞給它的成員搜尋引擎；當元搜尋引擎從成員搜尋引擎收到傳回的搜尋結果時，就将這些結果合并為一個排序清單，并将它們展示給使用者。

雖然本書主要介紹大規模元搜尋引擎技術，但是讀者了解典型的搜尋引擎如何工作仍然是重要的。搜尋引擎的核心技術源自計算機科學領域中所熟知的資訊檢索（information retrieval）或文字檢索（text retrieval）。本章首先簡要讨論在web上查找資訊的不同方法，然後回顧文字檢索和搜尋引擎技術的一些基本概念和算法。本章最後一節将給出本書其餘部分的概述。

《大規模元搜尋引擎技(1)》一第1章緒言

繼續閱讀

Testlink安裝部署之XAMPP

set define off關閉替代變量功能

報錯：'mysql' 不是内部或外部指令，也不是可運作的程式或批處理檔案。

Linxu常用指令技巧彙總

ERROR 1 (HY000): Can't create/write to file '/tmp/#sql_4188_1.MYI' (Errcode: 28)

艱難安裝LDAP,SSL認證

《Linux指令行與Shell腳本程式設計大全第2版.布盧姆》pdf

MySQL的4種隔離級别？出現問題

XX系統實施過程問題總結

無元件上傳圖檔到資料庫中，最完整解決方案

【MySQL資料庫】資料庫索引事務1.索引2.事務

neo4j之cypher使用文檔

NOSQL安全攻擊

mybatis_入門程式Mybatis入門

登入plsql 報錯 the account is locked --使用者被鎖

SequoiaDB巨杉資料庫C++驅動概述

《大規模元搜尋引擎技(1)》一第1章 緒言

繼續閱讀

《大規模元搜尋引擎技(1)》一第1章緒言