天天看點

什麼是爬蟲

網絡爬蟲(web crawler)也叫網頁蜘蛛,網絡機器人,是一種用來自動浏覽網際網路的程式或者腳本。爬蟲可以驗證超連結和HTML代碼,用于網絡抓取(Web scraping)。網絡搜尋引擎等站點通過爬蟲軟體更新自身的網站内容(Web content)或其對其他網站的索引。 爬蟲通路網站的過程會消耗目标系統資源,是以在通路大量頁面時,爬蟲需要考慮到規劃、負載等問題。

網絡爬蟲是一個自動提取網頁的程式,它為搜尋引擎從網際網路上下載下傳網頁,是搜尋引擎的重要組成。傳統爬蟲從一個或若幹初始網頁的URL開始,獲得初始網頁上的URL,在抓取網頁的過程中,不斷從目前頁面上抽取新的URL放入隊列,直到滿足系統的一定停止條件。聚焦爬蟲的工作流程較為複雜,需要根據一定的網頁分析算法過濾與主題無關的連結,保留有用的連結并将其放入等待抓取的URL隊列。然後,它将根據一定的搜尋政策從隊列中選擇下一步要抓取的網頁URL,并重複上述過程,直到達到系統的某一條件時停止。另外,所有被爬蟲抓取的網頁将會被系統存貯,進行一定的分析、過濾,并建立索引,以便之後的查詢和檢索;對于聚焦爬蟲來說,這一過程所得到的分析結果還可能對以後的抓取過程給出回報和指導。

相對于通用網絡爬蟲,聚焦爬蟲還需要解決三個主要問題:

(1) 對抓取目标的描述或定義;

(2) 對網頁或資料的分析與過濾;

(3) 對URL的搜尋政策。

面臨的問題

繼續閱讀