天天看點

搜尋引擎介紹

【概念】       <b>搜尋引擎(search engine)是指根據一定的政策、運用特定的計算機程式搜集網際網路上的資訊,在對資訊進行組織和處理後,為使用者提供檢索服務的系統。</b>

       從使用者的角度看,搜尋引擎提供一個包含搜尋框的頁面,在搜尋框輸入詞語,通過浏覽器送出給搜尋引擎後,搜尋引擎就會傳回跟使用者輸入的内容相關的資訊清單。

       網際網路發展早期,以雅虎為代表的網站分類目錄查詢非常流行。網站分類目錄由人工整理維護,精選網際網路上的優秀網站,并簡要描述,分類放置到不同目錄下。使用者查詢時,通過一層層的點選來查找自己想找的網站。也有人把這種基于目錄的檢索服務網站稱為搜尋引擎,但從嚴格意義上講,它并不是搜尋引擎。

<b></b>

【英文簡述】

      A search engine is an information retrieval system designed to help find information stored on a computer system, such as on the World Wide Web, inside a corporate or proprietary network, or in a personal computer. The search engine allows one to ask for content meeting specific criteria (typically those containing a given word or phrase) and retrieves a list of items that match those criteria. This list is often sorted with respect to some measure of relevance of the results. Search engines use regularly updated indexes to operate quickly and efficiently.

      Without further qualification, search engine usually refers to a Web search engine, which searches for information on the public Web. Other kinds of search engine are enterprise search engines, which search on intranets, personal search engines, and mobile search engines. Different selection and relevance criteria may apply in different environments, or for different uses.

      Some search engines also mine data available in newsgroups, databases, or open directories. Unlike Web directories, which are maintained by human editors, search engines operate algorithmically or are a mixture of algorithmic and human input.

【工作原理】

<b>1、抓取網頁</b>

每個獨立的搜尋引擎都有自己的網頁抓取程式(spider)。Spider順着網頁中的超連結,連續地抓取網頁。由于網際網路中超連結的應用很普遍,理論上,從一定範圍的網頁出發,就能搜集到絕大多數的網頁。

<b>2、處理網頁</b>

搜尋引擎抓到網頁後,還要做大量的預處理工作,才能提供檢索服務。其中,最重要的就是提取關鍵詞,建立索引檔案。其他還包括去除重複網頁、分析超連結、計算網頁的重要度。

<b>3、提供檢索服務</b>

使用者輸入關鍵詞進行檢索,搜尋引擎從索引資料庫中找到比對該關鍵詞的網頁;為了使用者便于判斷,除了網頁标題和URL外,還會提供一段來自網頁的摘要以及其他資訊。

全文搜尋引擎

在搜尋引擎分類部分我們提到過全文搜尋引擎從網站提取資訊建立網頁資料庫的概念。搜尋引擎的自動資訊搜集功能分兩種。一種是定期搜尋,即每隔一段時間(比如Google一般是28天),搜尋引擎主動派出“蜘蛛”程式,對一定IP位址範圍内的網際網路站進行檢索,一旦發現新的網站,它會自動提取網站的資訊和網址加入自己的資料庫。

另一種是送出網站搜尋,即網站擁有者主動向搜尋引擎送出網址,它在一定時間内(2天到數月不等)定向向你的網站派出“蜘蛛”程式,掃描你的網站并将有關資訊存入資料庫,以備使用者查詢。由于近年來搜尋引擎索引規則發生了很大變化,主動送出網址并不保證你的網站能進入搜尋引擎資料庫,是以目前最好的辦法是多獲得一些外部連結,讓搜尋引擎有更多機會找到你并自動将你的網站收錄。

當使用者以關鍵詞查找資訊時,搜尋引擎會在資料庫中進行搜尋,如果找到與使用者要求内容相符的網站,便采用特殊的算法——通常根據網頁中關鍵詞的比對程度,出現的位置/頻次,連結品質等——計算出各網頁的相關度及排名等級,然後根據關聯度高低,按順序将這些網頁連結傳回給使用者。

目錄索引

與全文搜尋引擎相比,目錄索引有許多不同之處。

首先,搜尋引擎屬于自動網站檢索,而目錄索引則完全依賴手工操作。使用者送出網站後,目錄編輯人員會親自浏覽你的網站,然後根據一套自定的評判标準甚至編輯人員的主觀印象,決定是否接納你的網站。

其次,搜尋引擎收錄網站時,隻要網站本身沒有違反有關的規則,一般都能登入成功。而目錄索引對網站的要求則高得多,有時即使登入多次也不一定成功。尤其象Yahoo!這樣的超級索引,登入更是困難。

此外,在登入搜尋引擎時,我們一般不用考慮網站的分類問題,而登入目錄索引時則必須将網站放在一個最合适的目錄(Directory)。

最後,搜尋引擎中各網站的有關資訊都是從使用者網頁中自動提取的,是以使用者的角度看,我們擁有更多的自主權;而目錄索引則要求必須手工另外填寫網站資訊,而且還有各種各樣的限制。更有甚者,如果從業人員認為你送出網站的目錄、網站資訊不合适,他可以随時對其進行調整,當然事先是不會和你商量的。

目錄索引,顧名思義就是将網站分門别類地存放在相應的目錄中,是以使用者在查詢資訊時,可選擇關鍵詞搜尋,也可按分類目錄逐層查找。如以關鍵詞搜尋,傳回的結果跟搜尋引擎一樣,也是根據資訊關聯程度排列網站,隻不過其中人為因素要多一些。如果按分層目錄查找,某一目錄中網站的排名則是由标題字母的先後順序決定(也有例外)。

目前,搜尋引擎與目錄索引有互相融合滲透的趨勢。原來一些純粹的全文搜尋引擎現在也提供目錄搜尋,如Google就借用Open Directory目錄提供分類查詢。而象 Yahoo! 這些老牌目錄索引則通過與Google等搜尋引擎合作擴大搜尋範圍(注)。在預設搜尋模式下,一些目錄類搜尋引擎首先傳回的是自己目錄中比對的網站,如國内搜狐、新浪、網易等;而另外一些則預設的是網頁搜尋,如Yahoo。

【搜尋引擎的發展史】

1990年,加拿大麥吉爾大學(University of McGill)計算機學院的師生開發出Archie。當時,網際網路(World Wide Web)還沒有出現,人們通過FTP來共享交流資源。Archie能定期搜集并分析FTP伺服器上的檔案名資訊,提供查找分别在各個FTP主機中的檔案。使用者必須輸入精确的檔案名進行搜尋,Archie告訴使用者哪個FTP伺服器能下載下傳該檔案。雖然Archie搜集的資訊資源不是網頁(HTML檔案),但和搜尋引擎的基本工作方式是一樣的:自動搜集資訊資源、建立索引、提供檢索服務。是以,Archie被公認為現代搜尋引擎的鼻祖。

搜尋引擎的起源:

所有搜尋引擎的祖先,是1990年由Montreal的McGill University三名學生(Alan Emtage、Peter Deutsch、Bill Wheelan)發明的Archie(Archie FAQ)。Alan Emtage等想到了開發一個可以用檔案名查找檔案的系統,于是便有了Archie。Archie是第一個自動索引網際網路上匿名FTP網站檔案的程式,但它還不是真正的搜尋引擎。Archie是一個可搜尋的FTP檔案名清單,使用者必須輸入精确的檔案名搜尋,然後Archie會告訴使用者哪一個FTP位址可以下載下傳該檔案。 由于Archie深受歡迎,受其啟發,Nevada System Computing Services大學于1993年開發了一個Gopher(Gopher FAQ)搜尋工具Veronica(Veronica FAQ)。Jughead是後來另一個Gopher搜尋工具。

發 展(1):

  世界上第一個Spider程式,是MIT Matthew Gray的World wide Web Wanderer,用于追蹤網際網路發展規模。剛開始它隻用來統計網際網路上的伺服器數量,後來則發展為也能夠捕獲網址(URL) 。

  搜尋引擎一般由以下三部分組成:

 爬行器(機器人、蜘蛛)

 索引生成器

 查詢檢索器

發 展(2):

  Excite 的曆史可以上溯到1993年2月,6個Stanford University(斯坦福大學)大學生的想法是分析字詞關系,以對網際網路上的大量資訊作更有效的檢索。到1993年中,這已是一個完全投資項目,他們還釋出了一個供webmasters在自己網站上使用的搜尋軟體版本,後來被叫做Excite for Web Servers。

  注:Excite後來曾以概念搜尋聞名,2002年5月,被Infospace收購的Excite停止自己的搜尋引擎,改用元搜尋引擎 Dogpile

發 展(3):

  1994年4月,斯坦福大學的兩名博士生,美籍華人楊緻遠和David Filo共同創辦了Yahoo!。随着通路量和收錄連結數的增長,Yahoo目錄開始支援簡單的資料庫搜尋。因為Yahoo!的資料是手工輸入的,是以不能真正被歸為搜尋引擎,事實上隻是一個可搜尋的目錄。Yahoo!中收錄的網站,因為都附有簡介資訊,是以搜尋效率明顯提高。

  注:Yahoo以後陸續有 Altavista、Inktomi、Google提供搜尋引擎服務

  Yahoo!--幾乎成為20世紀90年代的網際網路的代名詞。

發 展(4):

  1995年,一種新的搜尋引擎形式出現了——元搜尋引擎(Meta Search Engine)。使用者隻需送出一次搜尋請求,由元搜尋引擎負責轉換處理後送出給多個預先標明的獨立搜尋引擎,并将從各獨立搜尋引擎傳回的所有查詢結果,集中起來處理後再傳回給使用者。

  第一個元搜尋引擎,是Washington大學碩士生 Eric Selberg 和 Oren Etzioni 的 Metacrawler。元搜尋引擎概念上好聽,但搜尋效果始終不理想,是以沒有哪個元搜尋引擎有過強勢地位。

發 展(5):

  智能檢索的産生:它利用分詞詞典、同義詞典,同音詞典改善檢索效果,進一步還可在知識層面或者說概念層面上輔助查詢,通過主題詞典、上下位詞典、相關同級詞典檢索處理形成一個知識體系或概念網絡,給予使用者智能知識提示,最終幫助使用者獲得最佳的檢索效果。

  例:

(1)查詢“計算機”,與“電腦”相關的資訊也能檢索出來;

(2)可以進一步縮小查詢範圍至“微機”、“伺服器”或擴大查詢至“資訊技術”或查詢相關的“電子技術”、“軟體”、“計算機應用”等範疇;

(3)還包括歧義資訊和檢索處理,如“蘋果”,究竟是指水果還是電腦品牌,“華人”與“×××”的區分,将通過歧義知識描述庫、全文索引、使用者檢索上下文分析以及使用者相關性回報等技術結合處理,高效、準确地回報給使用者最需要的資訊。

發 展(6):

  個性化趨勢是搜尋引擎的一個未來發展的重要特征和必然趨勢之一。一種方式通過搜尋引擎的社群化産品(即對注冊使用者提供服務)的方式來組織個人資訊,然後在搜尋引擎基礎資訊庫的檢索中引入個人因素進行分析,獲得針對個人不同的搜尋結果。自2004年10月yahoo推出myweb測試版,到11月a9推出個性化功能,到2005年Googlesearchhistory基本上都沿着一條路子走,分析特定使用者的搜尋需求限定的範圍,然後按照使用者需求範圍擴充到網際網路上其他的同類網站給出最相關的結果。另外一種是針對大衆化的,Google個性化搜尋引擎,或者yahooMindSet,或者我們都知道的前台聚類的vivisimo。但是無論其中的哪一種實作方式,即Google的主動選擇搜尋範圍,還是yahoo([url]http://my.yahoo.com[/url]),vivisimo的在結果中重新組織自己需要的資訊,都是一種實驗或者創想,短期内無法成為主流的搜尋引擎應用産品。

發 展(7):

  網格技術(great global grid):由于沒有統一的資訊組織标準對網絡資訊資源進行加工處理,難以對無序的網絡資訊資源進行檢索、交接和共享乃至深層次的開發利用,形成資訊孤島。網格技術就是要消除資訊孤島實作網際網路上所有資源的全面連通。

美國全球資訊網格(Global Information Grid)  

  Robot(機器人)一詞對程式設計者有特殊的意義。Computer Robot是指某個能以人類無法達到的速度不斷重複執行某項任務的自動程式。由于專門用于檢索資訊的Robot程式像蜘蛛(spider)一樣在網絡間爬來爬去,是以,搜尋引擎的Robot程式被稱為spider程式。

  1993年Matthew Gray開發了 World Wide Web Wanderer,這是第一個利用HTML網頁之間的連結關系來檢測網際網路規模的“機器人(Robot)”程式。開始,它僅僅用來統計網際網路上的伺服器數量,後來也能夠捕獲網址(URL)。

  1994年4月,斯坦福大學(Stanford University)的兩名博士生,美籍華人Jerry Yang(楊緻遠)和David Filo共同創辦了Yahoo。随着通路量和收錄連結數的增長,Yahoo目錄開始支援簡單的資料庫搜尋。因為Yahoo!的資料是手工輸入的,是以不能真正被歸為搜尋引擎,事實上隻是一個可搜尋的目錄。雅虎于2002年12月23日收購inktomi,2003年7月14日收購包括Fast和Altavista在内的Overture,2003年11月,Yahoo全資收購3721公司。

  1994年初,華盛頓大學(University of Washington )的學生Brian Pinkerton開始了他的小項目WebCrawler。1994年4月20日,WebCrawler正式亮相時僅包含來自6000個伺服器的内容。WebCrawler是網際網路上第一個支援搜尋檔案全部文字的全文搜尋引擎,在它之前,使用者隻能通過URL和摘要搜尋,摘要一般來自人工評論或程式自動取正文的前100個字。

  1994年7月,卡内基·梅隆大學(Carnegie Mellon University) 的Michael Mauldin将John Leavitt的spider程式接入到其索引程式中,建立了Lycos。除了相關性排序外,Lycos還提供了字首比對和字元相近限制,Lycos第一個在搜尋結果中使用了網頁自動摘要,而最大的優勢還是它遠勝過其它搜尋引擎的資料量。

  1994年底,Infoseek正式亮相。其友善的界面,大量的附加功能,使之和Lycos一樣成為搜尋引擎的重要代表。

  1995年,一種新的搜尋引擎形式出現了——元搜尋引擎(A Meta Search Engine Roundup)。使用者隻需送出一次搜尋請求,由元搜尋引擎負責轉換處理,送出給多個預先標明的獨立搜尋引擎,并将從各獨立搜尋引擎傳回的所有查詢結果,集中起來處理後再傳回給使用者。第一個元搜尋引擎,是Washington大學碩士生 Eric Selberg 和 Oren Etzioni 的 Metacrawler。

  1995年12月,DEC的正式釋出AltaVista。AltaVista是第一個支援自然語言搜尋的搜尋引擎,第一個實作進階搜尋文法的搜尋引擎(如AND、 OR、 NOT等)。使用者可以用AltaVista搜尋新聞討論區(Newsgroups)的内容并從網際網路上獲得文章,還可以搜尋圖檔名稱中的文字、搜尋Titles、搜尋Java applets、搜尋ActiveX objects。AltaVista也聲稱是第一個支援使用者自己向網頁索引庫送出或删除URL的搜尋引擎,并能在24小時内上線。AltaVista最有趣的新功能之一,是搜尋有連結指向某個URL的所有網站。在面向使用者的界面上,AltaVista也作了大量革新。它在搜尋框區域下放了“tips”以幫助使用者更好的表達搜尋式,這些小tip經常更新,這樣,在搜尋過幾次以後,使用者會看到很多他們可能從來不知道的的有趣功能。這系列功能,逐漸被其它搜尋引擎廣泛采用。1997年,AltaVista釋出了一個圖形示範系統LiveTopics,幫助使用者從成千上萬的搜尋結果中找到想要的。

  1995年9月26日,加州伯克利分校助教Eric Brewer、博士生Paul Gauthier創立了Inktomi,1996年5月20日,Inktomi公司成立,強大的HotBot出現在世人面前。聲稱每天能抓取索引1千萬頁以上,是以有遠超過其它搜尋引擎的新内容。HotBot也大量運用cookie儲存使用者的個人搜尋喜好設定。

  1997年8月,Northernlight搜尋引擎正式現身。它曾是擁有最大資料庫的搜尋引擎之一,它沒有Stop Words,它有出色的Current News、7100多出版物組成的Special Collection、良好的進階搜尋文法,第一個支援對搜尋結果進行簡單的自動分類。

  1998年10月之前,Google隻是斯坦福大學(Stanford University)的一個小項目BackRub。1995年博士生Larry Page開始學習搜尋引擎設計,于1997年9月15日注冊了google.com的域名,1997年底,在Sergey Brin和Scott Hassan、Alan Steremberg的共同參與下,BachRub開始提供Demo。1999年2月,Google完成了從Alpha版到Beta版的蛻變。Google公司則把1998年9月27日認作自己的生日。Google以網頁級别(Pagerank)為基礎,判斷網頁的重要性,使得搜尋結果的相關性大大增強。Google公司的奇客(Geek)文化氛圍、不作惡(Don’t be evil)的理念,為Google赢得了極高的口碑和品牌美譽。2006年4月,Google宣布其中文名稱“谷歌”,這是Google第一個在非英語國家起的名字。

Fast(Alltheweb)公司創立于1997年,是挪威科技大學(NTNU)學術研究的副産品。1999年5月,釋出了自己的搜尋引擎AllTheWeb。Fast創立的目标是做世界上最大和最快的搜尋引擎,幾年來庶幾近之。Fast(Alltheweb)的網頁搜尋可利用ODP自動分類,支援Flash和pdf搜尋,支援多語言搜尋,還提供新聞搜尋、圖像搜尋、視訊、MP3、和FTP搜尋,擁有極其強大的進階搜尋功能。(2003年2月25日,Fast的網際網路搜尋部門被Overture收購)。

  1996年8月,sohu公司成立,制作中文網站分類目錄,曾有“出門找地圖,上網找搜狐”的美譽。随着網際網路網站的急劇增加,這種人工編輯的分類目錄已經不适應。sohu于2004年8月獨立域名的搜尋網站“搜狗”,自稱“第三代搜尋引擎”。

  Openfind 創立于1998年1月,其技術源自台灣中正大學吳升教授所上司的GAIS實驗室。Openfind起先隻做中文搜尋引擎,鼎盛時期同時為三大著名門戶新浪、奇摩、雅虎提供中文搜尋引擎,但2000年後市場逐漸被Baidu和Google瓜分。2002年6月,Openfind重新釋出基于GAIS30 Project的Openfind搜尋引擎Beta版,推出多元排序(PolyRankTM),宣布累計抓取網頁35億,開始進入英文搜尋領域。

  2000年1月,兩位北大校友,超鍊分析專利發明人、前Infoseek資深工程師李彥宏與好友徐勇(加州伯克利分校博士後)在北京中關村創立了百度(Baidu)公司。2001年8月釋出Baidu.com搜尋引擎Beta版(此前Baidu隻為其它門戶網站搜狐新浪Tom等提供搜尋引擎),2001年10月22日正式釋出Baidu搜尋引擎,專注于中文搜尋。<b>Baidu搜尋引擎的其它特色包括</b>:百度快照、網頁預覽/預覽全部網頁、相關搜尋詞、錯别字糾正提示、mp3搜尋、Flash搜尋。2002年3月閃電計劃(Blitzen Project)開始後,技術更新明顯加快。後推出貼吧、知道、地圖、國學、百科、文檔、視訊、部落格等一系列産品,深受網民歡迎。2005年8月5日在納斯達克上市,發行價為USD 27.00,代号為BIDU。開盤價USD 66.00,以USD 122.54收盤,漲幅353.85%,創下了5年以來美國股市上市新股當日漲幅最高紀錄。

  2003年12月23日,原慧聰搜尋正式獨立運做,成立了中國搜尋。2004年2月,中國搜尋釋出桌面搜尋引擎網絡豬1.0,2006年3月中搜将網絡豬更名為IG(Internet Gateway) 。

  2005年6月,新浪正式推出自主研發的搜尋引擎“愛問”。

  2007年7月1日 全面采用網易自主研發的有道搜尋技術,并且合并了原來的綜合搜尋和網頁搜尋。有道網頁搜尋、圖檔搜尋和部落格搜尋為網易搜尋提供服務。其中網頁搜尋使用了其自主研發的自然語言處理、分布式存儲及計算技術;圖檔搜尋首創根據拍攝相機品牌、型号,甚至季節等進階搜尋功能;部落格搜尋相比同類産品具有抓取全面、更新及時的優勢,提供“文章預覽”,“部落格檔案”等創新功能。

【商務模式】

  在搜尋引擎發展早期,多是作為技術提供商為其他網站提供搜尋服務,網站付錢給搜尋引擎。後來,随着2001年網際網路泡沫的破滅,大多轉向為<b>競價排名</b>方式。

  現在搜尋引擎的主流商務模式(百度的競價排名、Google的AdWords)都是在搜尋結果頁面放置廣告,通過使用者的點選向廣告主收費。這種模式最早是比爾·格羅斯(Bill Gross)提出的。他于1998年6月創立GoTo公司(後于2001年9月更名為Overture),實施這種模式,取得了很大的成功,并且申請了專利。這種模式有兩個特點,一是點選付費(Pay Per Click),使用者不點選則廣告主不用付費。二是競價排序,根據廣告主的付費多少排列結果。 2001年10月,Google推出AdWords,也采用點選付費和競價的方式。2002年,Overture起訴Google侵犯了其專利。2004年8月,和Yahoo!(Yahoo!于2003年7月收購Overture)達成和解,向後者支付了270萬普通股(合3億美元不到)作為和解費。

  AdSense是Google于2003年推出的一種新的廣告方式。AdSense使各種規模的的第三方網頁釋出者進入Google龐大的廣告商網絡。Google在這些第三方網頁放置跟網頁内容相關的廣告,當浏覽者點選這些廣告時,網頁釋出者能獲得收入。AdSense在blogger中很受歡迎。同時,Google武斷地删除一些帳号,引起部分人的不滿。類似的廣告方式,其他搜尋引擎也先後推出。雅虎的廣告方式是YPN(Yahoo Publisher Network),YPN 除了可以在網頁上顯示與内容相關的廣告以外,還可以通過在 RSS 訂閱中來顯示廣告。微軟的廣告計劃叫AdCenter。百度也推出主題推廣。

繼續閱讀