天天看點

《大規模元搜尋引擎技(1)》一第1章 緒言

本節書摘來自華章出版社《大規模元搜尋引擎技(1)》一書中的第1章,作者[美]孟衛一(weiyi meng)紐約州立大學賓漢姆頓分校於德(clement t.yu)伊利諾伊大學芝加哥分校,更多章節内容可以通路雲栖社群“華章計算機”公衆号檢視

近年來,網際網路(world wide web,環球資訊網,環球網,網絡或web)已經成為最大的資訊源。世界各地的人們經常使用web查找所需要的資訊。實際上,web已經成為人們日常生活的重要組成部分。

從1990年web出現以來,它一直在非常迅速地發展。web可以分為表層網(surface web)和深層網(deep web,也稱為深網;

或hidden web,隐藏網)。表層網是指可以公開和直接通路的,而無須通過注冊、登入或搜尋引擎接口的web頁面(web page,或稱為網頁)集合。通常,每個這樣的網頁都有一個靜态邏輯位址,稱為統一資源定位符(uniform resource locator,url)。表層網中的網頁通常被超連結(hyperlink)連結起來。通過超連結,這些網頁可以被普通web爬蟲(web crawler) web爬蟲将在1.3.2節讨論。通路到。表層網的準确大小尚未可知,然而被索引的web是表層網的一個子集,根據2010年8月http://www.worldwidewebsize.com/的估計,這一子集所含的網頁數目可達550億之多。深網的網頁不能被一般的web爬蟲爬取。這些網頁包含的web内容或者不能被公開通路或者是動态生成的。例如,考慮如下情形,某出版商收集了很多以數字格式存放的文章,但是沒有把它們放在表層網(即沒有針對它們的靜态url),通路它們隻能通過出版商的搜尋引擎,因而這些文章屬于深網。使用資料庫系統存儲的資料動态生成的網頁也屬于深網。截至2009年[zillman,p.,2009],深網的網頁大概有1萬億(1 trillion)。表層網和深網都在迅速擴充。

從20世紀90年代早期開始,如何幫助普通使用者從web查找到所需資訊已經成為web技術領域的中心議題之一。這些年來,衆多的研究者和開發者建立了許多搜尋引擎,它們已經成為深受人們喜愛的可在web上查找所需資訊的工具。搜尋引擎通常是擁有一個簡單查詢接口的易于使用的工具。使用者在搜尋引擎的查詢界面輸入其查詢——通常是反映使用者資訊需求的幾個單詞,然後搜尋引擎從其文檔或資料庫中找出最佳比對。根據搜尋資料的類型,搜尋引擎可分為文檔驅動的搜尋引擎和資料庫驅動的搜尋引擎。前者搜尋文檔(網頁),而後者通過基于web的搜尋接口從資料庫系統搜尋資料項。資料庫驅動的搜尋引擎主要應用于電子商務,如購買汽車或書籍。本書僅關注于搜尋文本文檔的情形。

由于web規模巨大且擴張快速,每個搜尋引擎僅能覆寫其一小部分。例如,最大的網絡搜尋引擎之一的google(http://www.google.com/)能夠搜尋多達350億網頁(http://www.worldwidewebsize.com/),但這仍然是整個web的一小部分。人們普遍觀察到的一個現象是不同搜尋引擎覆寫web的不同部分,雖然這些部分有重疊。一個增加網絡搜尋範圍的有效方法是組合多個搜尋引擎的搜尋範圍。執行這種組合的系統稱為元搜尋引擎(metasearch engine)。一個元搜尋引擎可視為支援統一通路多個現有搜尋引擎的系統。在一個使用元搜尋引擎的典型場景中,使用者送出查詢給元搜尋引擎,元搜尋引擎将查詢傳遞給它的成員搜尋引擎;當元搜尋引擎從成員搜尋引擎收到傳回的搜尋結果時,就将這些結果合并為一個排序清單,并将它們展示給使用者。

雖然本書主要介紹大規模元搜尋引擎技術,但是讀者了解典型的搜尋引擎如何工作仍然是重要的。搜尋引擎的核心技術源自計算機科學領域中所熟知的資訊檢索(information retrieval)或文字檢索(text retrieval)。本章首先簡要讨論在web上查找資訊的不同方法,然後回顧文字檢索和搜尋引擎技術的一些基本概念和算法。本章最後一節将給出本書其餘部分的概述。