天天看點

1.4 網絡爬蟲采集政策

網絡爬蟲的采集政策一般分為四種:深度優先政策、廣度優先政策、非完全PageRank政策和大站優先政策。

深度優先政策:深度優先周遊政策是指網絡爬蟲從起始頁開始,一個連結一個連結跟蹤下去,處理完這條線路之後再轉入下一個起始頁,繼續跟蹤,直至結束,深度優先政策處理方式如下圖所示。

1.4 網絡爬蟲采集政策

深度優先政策是一種在開發爬蟲早期使用較多的方法。它的目的是要達到被搜尋網頁結構的葉結點(即那些不包含任何超連結的HTML檔案)。在一個HTML檔案中,當一個超連結被選擇後,被連結的HTML檔案将執行深度優先搜尋,即在搜尋其餘超連結結束之前必須先完整的搜尋單獨的一條鍊。深度優先搜尋沿着HTML檔案上的超連結直到不能深入為止,然後傳回到某一個HTML檔案,再繼續選擇該html檔案中的其他超連結。當不再有超連結可選擇時,說明搜尋已經結束。

優點:能周遊一個Web站點或深層次嵌套的文檔集合。

缺點:因為Web結構相當深,有可能是死循環,存在進去就可能再也出不來的情況。

廣度優先政策:廣度優先政策是指将下載下傳網頁中發現的超連結直接插入到待抓取URL隊列的末尾。也就是說網絡爬蟲會先抓取網頁中所有連結的所有網頁,然後再選擇其中一個網頁,繼續抓取此網頁中的所有網頁,廣度優先政策處理方式如下圖所示。

1.4 網絡爬蟲采集政策

在廣度優先搜尋中,先搜尋完一個Web頁面所有的超連結,然後再繼續搜尋下一層,直到結束為止。例如:一個HTML網頁檔案中有三個超連結,選擇其中之一并處理相應的HTML檔案,然後不再處理第二個HTML檔案中的任何超連結而是傳回并選擇第二個超連結,處理相應的HTML檔案,再傳回選擇第三個超連結并處理相應的HTML件。一旦一層上所有的超連結都被選擇,就可以開始在剛才處理過的HTML檔案中搜尋其餘的超連結。這就保證了對淺層的首先處理。當遇到一個無窮無盡的深層分支時,不會導緻陷入死循環而出不來的情況。

優點:它能在兩個HTML檔案之間找到最短路徑。廣度優先政策通常是實作爬蟲的最佳政策,因為它容易實作而且具備大多數期望的功能。

缺點:如果要周遊一個指定的站點或者深層次嵌套的HTML網頁集,用廣度優先政策搜尋需要花費較長時間才能達到深層次的HTML檔案。

綜上所訴:考慮到以上兩種政策和國内資訊導航系統搜尋資訊的特點,國内一般采用廣度優先政策為主,深度優先搜尋政策為輔的爬取政策。對于某些不被引用或者很少被引用的HTML檔案,廣度優先政策可能會遺漏這些孤立的資訊源,可以使用深度優先政策作為補充。

非完全PageRank政策:非完全PageRank政策是指對已經下載下傳的網頁,加上待抓取URL隊列中的URL一起形成網頁集合,在此集合内進行PageRank計算,計算完成後将待抓取URL隊列裡的網頁按照PageRank得分由高到低排序,形成的序列就是爬蟲接下來應該依次抓取的URL清單。