天天看點

網絡搜尋與資訊收集路路通

現代人的生活已經越來越離不開網際網路絡了。上網從聊天室裡的胡侃亂吹、大小論壇裡的灌水拍磚到垃圾伊妹兒的滿天飛舞、即時通訊工具軟體的紅紅火火再到各種電子媒體的相繼問世、網絡學校的日新月異,網絡正在對我們的生活産生不可小視的影響。各種網絡泡沫消失殆盡之後,帶給人們更多理性的思考,帶來了網絡上的一片欣欣向榮的新景觀。我們正在迎接一個全新的網絡新世界。

  感覺到了嗎?我們的語言中已經由于網絡而增加了許多新鮮的血液,我們的通訊交流由于網絡而變得更加友善快捷,我們的知識的更新速度也由于網絡而加快了不知有幾十倍……可以豪不誇張的說,已經有越來越多的人對網絡有着很強的依賴性,如果沒有網絡,他們将不知道該怎樣去生活!

  網絡是一個工具。也可以說網絡像“海洋”,它是“知識的海洋”,是現代人擷取知識的另一個重要而便捷的途徑。但這些知識固然是客觀存在的,隻有正确的掌握了打開這座知識寶藏的金鑰匙的人才能充分的享受寶藏帶給我們的快樂。換句話說,如果去主動地用有效的方法擷取這些知識,對中學生來說,應該比網絡本身的内容更加重要。本專題将結合作者本人多年的網絡生活經曆,與同學們一起探讨一下這方面的技巧和方法。

   一、掌握必要的“搜尋”技巧是擷取資訊的重要手段

  初入網絡的朋友,大多像一隻無頭的蒼蠅,在網絡這個無邊無際的虛拟空間中亂撞。這種漫無目的的“看網”,可能會因為遇到某個心動的網站而興奮不已,也可能會為緊緊張張地忙活了半天而一無所獲感到沮喪萬分。不過,這卻是初學者必須經過的一道坎。如果你能掌握正确的搜尋技巧,帶着一定的問題和疑問去上網,通路網絡後的結果肯定會與衆不同。

  1. 認識搜尋引擎

  什麼是搜尋引擎?它是如何工作的?還是讓我們先從搜尋引擎的曆史說起吧。1990年以前,沒有任何人能搜尋網際網路。所有搜尋引擎的祖先,是1990年由Montreal的McGill University學生Alan Emtage、Peter Deutsch、Bill Wheelan發明的Archie。後來,程式員們開發出了一個名叫“spider”(蜘蛛)的“Robot”(機器人)程式,它能自動以人類無法達到的速度不斷重複地在網絡上檢索資訊。這種行為很像一隻蜘蛛在INTERNET這張巨大的資訊網上爬來爬去,是以,spider程式便由此而來。世界上第一個Spider程式,是MIT Matthew Gray的World wide Web Wanderer,用于追蹤網際網路發展規模。剛開始它隻用來統計網際網路上的伺服器數量,後來F和發展為也能夠捕獲網址(URL)。

  随着網際網路的迅速發展,使得檢索所有新出現的網頁變得越來越困難,是以,在Wanderer基礎上,一些程式設計者将傳統的Spider程式工作原理作了些改進。其設想是,既然所有網頁都可能有連向其他網站的連結,那麼從一個網站開始,跟蹤所有網頁上的所有連結,就有可能檢索整個網際網路。

  概括的說:搜尋引擎就是WWW網絡環境中的一套資訊檢索系統。它通常有兩種不同的工作方式:一種是分類目錄型的檢索,把網際網路中的資源收集起來,由其提供的資源的類型不同而分成不同的目錄,再一層層地進行分類,人們要找自己想要的資訊可按他們的分類一層層進入,就能最後到達目的地,找到自己想要的資訊;另一種是基于關鍵詞(Keyword)的檢索,這種方式使用者可以用邏輯組合方式輸入各種關鍵詞,搜尋引擎計算機根據這些關鍵詞尋找使用者所需資源的位址,然後根據一定的規則回報給使用者包含此關鍵字詞資訊的所有網址和指向這些網址的連結。

  搜尋引擎其實也就是一個網站,隻不過該網站專門為你提供資訊“檢索”服務,它使用特有的程式把INTERNET上的所有資訊歸類以幫助人們在浩如煙海的資訊海洋中搜尋到自己所需要的資訊。随着網際網路資訊按幾何級數增長,這些搜尋引擎利用其内部的一個spider程式,自動搜尋網站每一頁的開始,并把每一頁上代表超級連結的所有詞彙放入一個資料庫,供使用者來查詢。

  一個搜尋引擎大緻由三部分組成。第一部分是搜尋器,也就是上面提到的Spider程式。它定期的自動爬到各個網站上,把網頁抓下來,并順着上面的連結,象蜘蛛一樣爬開去,持續不斷的抓取網頁。第二部分是索引器,它把蜘蛛程式抓來網頁進行分析,按照關鍵詞句進行索引,并存入伺服器的資料庫中。第三部分是面向使用者的檢索器,它接收使用者送出的查詢字串,在索引資料庫中查詢,并将結果回報給使用者。

  是以,準确的說,當我們利用搜尋引擎搜尋資訊時,并不是真正在網上進行搜尋,而是在檢索那個由蜘蛛程式自動建立起來的龐大的資料庫。由于各大搜尋引擎的資料庫的自動更新周期是不同的,從幾天到幾周甚至一個月都有可能,是以,選擇合适的搜尋引擎顯得尤為重要。同時,有時也可能遇到用搜尋引擎搜尋到的網頁無法打開的情況,了解了它的工作原理,這一點也就不會大驚小怪了。

  2. 選擇合适的搜尋引擎

  盡管網上有大量的搜尋引擎可供選擇,但時下搜尋效率等各方面都比較讓人滿意的并不多。相比之下,源自辛棄疾的《青玉案》中的著名詩句“衆裡尋她千百度”的中文搜尋引擎“百度”以及簡體中文的google應該是大家的首選。其中百度(www.baidu.com)主要提供基于“關鍵詞”的檢索方式,而且在這方面做得非常有特色。而google則不僅可以支援基于“關鍵詞”的搜尋網頁搜尋方式,同時也是分類目錄式的搜尋的典範。

  3. 搜尋引擎的使用技巧

  千萬不要以為有了搜尋引擎就能搜到一切,如何正确的運用搜尋引擎也是一門學問。目前,著名的搜尋引擎百度正在網上進行“百度搜尋大富翁”的遊戲(http://game.baidu.com/index.php),你隻要每天花上幾分鐘時間,利用搜尋引擎回答5道題目,既可以學習到許多有用的搜尋技巧,還有機會赢取掌上電腦、數位相機、手機等巨額獎品,何樂而不為?下面談談本人在使用百度搜尋引擎方面的一些方法和技巧。

  我們使用搜尋引擎,大多數情況下都是使用一些關鍵詞去搜尋引擎中進行搜尋的。是以,搜尋的技巧之一就是關鍵詞的合理選取。什麼叫“關鍵詞”?其實就是你輸入在搜尋引擎的搜尋框中的文字,也就是你指令搜尋引擎要尋找的東西。千萬不要以為關鍵詞就是三兩個字才叫“詞”,有時用一句話或一個短語作為關鍵詞往往可以收到奇效。因為相同的詞彙可以用在許多不同的場合,僅僅使用一個或幾個單詞搜尋到的結果肯定會是一片汪洋,這樣的搜尋結果沒有任何作用。除了關鍵詞的長度,合理的選擇關鍵詞也是非常重要的。對于同樣的搜尋需求,兩種不同的關鍵詞搜尋政策可能得到相差懸殊的結果。比如:有這樣的一個問題:内蒙古錫林郭勒盟蘇尼特右旗,1985年出土的距今1.2億年的“_________恐龍”是目前中國發現的最大的恐龍化石骨架。裝架後體長22.4米,背高7米,擡頭高12米。如果要求通過網上搜尋後找到答案,你準備用什麼樣的關鍵詞呢?是“内蒙古”,還是“恐龍化石”,抑或是将這兩個關鍵詞同時使用?無論你采用以上哪種方案去搜尋,得到的結果都會有成千上萬!但如果能夠緊緊抓住“中國發現的最大的恐龍化石骨架”這句短語,以它為關鍵詞來進行搜尋的話,在百度和雅虎的搜尋引擎上都隻得到9個結果!找到這個問題的答案當然易如反掌了。

  其次,對于已經搜尋到的網頁,如果無法打開,八成是該網頁已經被站長從網上删除了。而更讓人難以接受的是,通過搜尋引擎的對該頁簡要介紹,發現該頁上正是自己苦苦找尋的結果,是不是就真的沒有辦法了呢?當然不是。如果你選擇百度搜尋引擎進行搜尋,可以看出,在每個搜尋結果後,都有“網頁快照”和“網頁預覽”兩個超級連接配接。在這種情況下,直接打開該網頁可能打不開,但點選“網頁快照”卻可以看到該網頁的快照内容。因為網頁快照儲存了該網站以前的資訊,網頁快照不僅下載下傳速度極快,而且搜尋項均用不同顔色标明,另外還有标題資訊說明其存檔時間日期,并提醒使用者這隻是存檔資料。 網頁快照不僅可以讓你看到一些根本就不存在了的網頁上的内容,對仍然可以打開的網頁,使用網頁快照也有許多好處。因為,快照頁面的首部都有一個與關鍵詞相關的頁内連結,直接指向該頁中你所關心的重要内容。同時,網頁内的所有關鍵詞都被用不同的顔色進行了區分,是不是比直接打開網頁後自己用眼睛在該頁上查找要友善得多,尤其是内容多的網頁,有時你會感覺這些關鍵詞是在與你玩“捉迷藏”的遊戲。

  另外,使用多關鍵詞、使用減法搜尋——包含A但不包含B關鍵字、并行搜尋——包含A或者包含B,和在結果中查詢等進階搜尋技巧,也是提高搜尋水準的有效途徑。具體用法大家可以到http://www.baidu.com/search/jiqiao.html去查閱“百度搜尋幫助”。這裡要特别指出的是:百度的确是一個非常優秀的搜尋引擎。當你選取的關鍵字找不到你所要的結果時,很可能是關鍵字選取不當。怎麼辦?需要重新選取關鍵字,大多數情況下,百度都已經明白了你的意思,看!在該頁的下方,百度已經為你另外選取了幾組關鍵詞,用它們來作關鍵詞搜尋試試?這就是相關搜尋。

  大多數情況下,使用以上技巧就可以完成日常擷取知識的需要,但在某些特殊的場合,比如:想知道我們的“阿紫”編輯在“中學生電腦”的網站内的知名度,這時,就隻需要在一個網站(www.yesnew.com)内進行搜尋。部分網站提供了這種功能,但絕大多數網站都沒有這種站内搜尋的功能。怎麼辦?還是用“百度”就可以搞定。百度支援在網站内進行搜尋,這時,隻需要在它的搜尋輸入框内按“關鍵詞 site:網址或域名”的格式輸入關鍵字,再點選“開始搜尋”按鈕即可。例如:用“阿紫 site:www.yesnew.com”為關鍵字可以獲得“阿紫”這個名字在該網站出現的頻率;用“intel site:com.cn”可以在所有域名以“com.cn”結尾的網站内搜尋和“intel”相關的資料。需要注意的是:“site:”後不能有“http://”字首或“/”字尾,網站頻道隻局限于“頻道名.域名”方式,不能是“域名/頻道名”方式。

  4. 順藤摸瓜式搜尋方法與技巧

  前面已經講過,由于搜尋引擎的工作原理,一般都不可能利用搜尋引擎搜尋到最新最近的資訊。而且,畢竟它是一個按一定算法編寫的spider程式到網上搜尋到結果,難免會遺失網上大量的資訊。而各個搜尋引擎所建立的資料庫也是不大一樣的。也就是說,用一個搜尋引擎沒有搜尋到自己所要的資訊的話,可以換一個搜尋引擎再試試。除此之外,我本人在長期的搜尋過程中,還總結出一套“順藤摸瓜”式的搜尋技巧。不敢獨享,現介紹出來,與大家共享。

  一流的網站對于網頁名稱的設計也應該是一流的。雖然這些東西看似與使用者無關。大家都知道,“洪恩線上”是一個以開展計算機普及教育的著名網站,它的“電腦樂園”小版塊(http://www.hongen.com/pc/index.htm)是專門為各位初學電腦的同學們開辦的。裡面放置了專家們精心編寫的各種軟體的使用教程和操作技巧。如果你掌握了常見的一些英文單詞或縮寫(os:作業系統;oa:辦公自動化;tools:工具;program:程式設計;newer:初學者;homepage:網頁制作等),就可以根據其下某一欄目的網址(比如:辦公軟體的相關教程:http://www.hongen.com/pc/oa/index.htm),推斷出其他各類欄目可能的網址(将該位址中的“os”更換成相應的單詞即可)。再比如,有些網站中明明有某個網頁,卻沒有在它的首頁或其他頁面中放置連結到該頁面的超級連結,或者将該連結放在比較隐蔽的位置,想找到并打開這些網頁是比較困難的。但如果我們善于分析和發現它的網頁名稱的命名特點和規律,就可以順藤摸瓜,由點到面,在網上找到更多對自己有用的資訊。這些規律一般也無外乎用英文單詞、漢語拼音或縮寫、數字結尾、網頁更新當天的日期、刊物的期數加版(面)數這幾種形式。比如:天極網(www.yesky.com)中每個基層網頁的位址中幾乎都包含一個表示日期的數字串,比如:http://www.yesky.com/SoftChannel/72357786532446208/20030430/1666528.shtml,這個位址的倒數第二個數字串是什麼?呵呵,當然是表示該頁是2003年04月30日上傳的了。又如:http://media.ccidnet.com/media/cce/515/03301.htm是賽迪網中的一個網頁,分析一下它的位址的組成也很有意思。“media.ccidnet.com/media”表示“賽迪媒體”,cce則是“中國電腦教育報”的簡稱,515表示這篇文章出自“中國電腦教育報”總第515期,如果你将這篇文章與報紙相對照,就會發現連最後的03301.htm也有它的具體内涵:033表示第33版,01當然表示該版上的第一篇文章了,呵呵。了解了網站中網頁名稱的構成特點,就可以在第一時間看到該報的電子版。不信,你在每周日的晚上(教育報每周一出刊)直接在位址内輸入:http://media.ccidnet.com/media/cce/XXX/daodu.htm(其中XXX表示下周報紙總期數編号)試試?反正我是用這種方法不花錢而且比花錢訂報更早地看到了“報紙”的最新的内容。呵呵。

  二、工欲善其事,必先利其器——IE的搜尋插件及浏覽器的選擇

  1. 安裝幾個IE插件協助搜尋

  IE雖然與著名的3721中文網址合作,在工具欄裡提供了“搜尋”按鈕,但畢竟一個搜尋引擎是難以滿足大家的搜尋需要的。下面介紹如何給IE安裝幾個其他的搜尋引擎工具箱。

  ①百度搜霸

  上網到http://bar.baidu.com/baidubar/custom/IESearch_sitesowangdg.exe下載下傳“百度搜霸”(225K)。下載下傳完成後立即安裝,當提示“百度搜霸”已經正确安裝之後,重新啟動IE。在工具欄的空白位置點選滑鼠右鍵,隻要勾選“BaiduBar”,就可以立即在位址欄下彈出一個百度搜霸的工具欄。以後,隻要打開IE,想用百度搜尋引擎進行搜尋時,隻要是直接将要搜尋的關鍵字填入這個文本輸入框内,再點選其後的“搜尋”按鈕就可以立即顯示出包含有此關鍵字的網頁來。當然,如果你想利用搜尋引擎找歌聽,你可以輸入歌曲或者歌手的名稱,甚至是一句歌詞,再點選“MP3”或“歌詞”即可完成歌曲或歌詞的查找過程。同樣的關鍵字,如果你點選的是“flash”的話,将會彈出與這首歌有關的flash MTV或者flash動畫作品來供你下載下傳。是不是很友善?另外,“站内”當然是“站内搜尋”的意思了。同時,還就注意到,我們所輸入的關鍵詞同時還會出現在該工具條的最右邊,它有什麼作用呢?原來,當螢幕上顯示出搜尋結果頁面之後,單擊這裡可以在本頁内的所有關鍵字上進行順序移動,便于我們快速的從網頁中找到所需的内容。“高亮度顯示”的按鈕如果被按下,則目前頁面上的所有關鍵字都被高亮度顯示出來,使人一目了然。

  ②IE Plus Pro

  這是一個IE的插件,可以到http://bar.baidu.com/ad/download.php?clientName=sitesowang下載下傳IEPlus Pro的最新版本。安裝完成後,啟動IE。如果沒有發現IEPlus Pro的工具條,可以在IE的工具欄的空白處點選滑鼠右鍵,給“IEPlus Pro”打上勾即可。圖05就是它的工具條。注意,點選IEPlus Pro的圖示,才會出現這個下拉菜單。從這個下拉菜單中可以看出,它内置了近十種不同作用的搜尋引擎。可以友善地搜尋網頁、新聞、驅動程式、歌曲等。

  2. 浏覽器的選擇

  盡管IE有許許多多的使用者,但我個人認為,IE在許多友善做得并不好。像上面談到的搜尋方面,它需要我們再安裝第三方的工具來增強。其次,一個網頁需要打開一個IE新的視窗也讓人非常惱火,占用了我的機器在許多寶貴的資源。其實,浏覽器市場可以選擇的有很多,我這裡推薦使用“我要上網去”這個浏覽器。它的最新版本是1.2版,無需安裝,直接将它解壓到某一檔案夾即可。即使重新安裝了系統,也無需重新安裝它。它有以下幾大優秀的地方:

  ①同一視窗内采用标簽的形式打開多個網頁,大大節約了系統資源的占用率。

  ②内置了國内、國際、軟體、新聞、歌曲、驅動等10個分類近50個搜尋引擎,功能可以和其他專門的搜尋軟體媲美。隻要輸入你要搜尋的關鍵詞,單擊相應的分類,再單擊多個搜尋引擎,可以輕松用同一關鍵字在多個搜尋引擎中進行搜尋而無需重新輸入這些關鍵字,直到找到你的資訊為止。對于系統沒有添加進來的搜尋引擎,還允許使用者自己添加“個人”的搜尋引擎。下面以添加“百度搜尋引擎”為例進行一下說明。

  按下工具欄上的“搜尋”按鈕在視窗的左邊顯示“搜尋”面闆,點選“添加”,彈出“添加搜尋”對話框。在“位址”欄内輸入百度位址www.baidu.com并按Enter鍵,然後在網頁中輸入單詞“KEY”,單擊“百度搜尋”按鈕,對話框自動進入“下一步”。更改“網站标題”為“百度網頁搜尋”,可以看出,中部與搜尋有直接關系的幾個選項已經由程式自動填寫,單擊“完成”即可在“搜尋”面闆下多出一個名叫“百度網頁搜尋”的搜尋引擎連結。同樣,還可以建立一個“百度MP3歌曲搜尋引擎”連結,一個“百度歌詞搜尋引擎”,一個“百度flash檔案搜尋引擎”。隻是在重複上面的步驟時,在對話框中,單擊相應的搜尋選項後再點選“百度搜尋”即可。

  ③可對搜尋到的資訊進行簡單的采集

  51357自帶一個小巧的網頁下載下傳器HTML Downloader,在浏覽網頁時,遇到精彩的網頁連結,可以直接用滑鼠将這個連結拖動到視窗右下角的“網頁下載下傳器”裡,随即會彈出一個HTML Downloader的視窗,同時快速進行網頁的下載下傳。以後需要檢視該網頁時,可再次打開這個視窗,既可直接在此打開察看,也可選中部分或全部網頁,點選“輸出”,可以自己選中的形式儲存在指定的位置。另外,51357還有一個微型的“填表收集面闆”。将這個浮動的視窗放在螢幕的一個合适的位置,浏覽網頁的時候,可能經常會需要“摘錄”部分段落或精彩内容,沒關系,想“摘”就“摘”吧。隻要用滑鼠選中這些目标,同樣用滑鼠拖動這些段落至“收集面闆”中即可。等有時間再慢慢輸入整理吧。另存輸出的方法是:單擊圖09中滑鼠所指的“Export”按鈕,選擇一個儲存的位置和檔案名即可。

  ④過濾不良資訊,屏蔽彈出式網頁

  在“工具”菜單下,勾選“禁止彈出式廣告”和“啟用黑名單”,當你在浏覽某些具有彈出式廣告的網站時,這些網頁自動被過濾。同時,某些惡意網頁入侵一次之後,我們可以将它添加到“黑名單”中,這樣,下次它就不會再來侵擾我們了。

(出處:http://study.vipcn.com)