天天看點

爬蟲是什麼 && 爬蟲的種類

百度百科定義

網絡爬蟲又被稱為網頁蜘蛛。是一種按照一定的規則,自動地抓取資訊的程式或者腳本。

分類:

通用網絡爬蟲(General Purpose Web Crawler)、

聚焦網絡爬蟲(Focused Web Crawler)、

增量式網絡爬蟲(Incremental Web Crawler)、

深層網絡爬蟲(Deep Web Crawler)。

常用的爬行政策有:深度優先政策、廣度優先政策

  1. 深度優先政策:其基本方法是按照深度由低到高的順序,依次通路下一級網頁連結,直到不能再深入為止。 爬蟲在完成一個爬行分支後傳回到上一連結節點進一步搜尋其它連結。 當所有連結周遊完後,爬行任務結束。 這種政策比較适合垂直搜尋或站内搜尋, 但爬行頁面内容層次較深的站點時會造成資源的巨大浪費
  2. 廣度優先政策:此政策按照網頁内容目錄層次深淺來爬行頁面,處于較淺目錄層次的頁面首先被爬行。 當同一層次中的頁面爬行完畢後,爬蟲再深入下一層繼續爬行。 這種政策能夠有效控制頁面的爬行深度,避免遇到一個無窮深層分支時無法結束爬行的問題,實作友善,無需存儲大量中間節點,不足之處在于需較長時間才能爬行到目錄層次較深的頁面