1.5 爬蟲擴充——聚焦爬蟲
由于聚焦爬蟲可以按對應的主題有目的地進行爬取,并且可以節省大量的伺服器資源和帶寬資源,具有很強的實用性,是以在此,我們将對聚焦爬蟲進行詳細講解。圖1-2所示為聚焦爬蟲運作的流程,熟悉該流程後,我們可以更清晰地知道聚焦爬蟲的工作原理和
過程。
首先,聚焦爬蟲擁有一個控制中心,該控制中心負責對整個爬蟲系統進行管理和監控,主要包括控制使用者互動、初始化爬行器、确定主題、協調各子產品之間的工作、控制爬行過程等方面。
然後,将初始的url集合傳遞給url隊列,頁面爬行子產品會從url隊列中讀取第一批url清單,然後根據這些url位址從網際網路中進行相應的頁面爬取。爬取後,将爬取到的内容傳到頁面資料庫中存儲,同時,在爬行過程中,會爬取到一些新的url,此時,需要根據我們所定的主題使用連結過濾子產品過濾掉無關連結,再将剩下來的url連結根據主題使用連結評價子產品或内容評價子產品進行優先級的排序。完成後,将新的url位址傳遞到url隊列中,供頁面爬行子產品使用。另一方面,将頁面爬取并存放到頁面資料庫後,需要根據主題使用頁面分析子產品對爬取到的頁面進行頁面分析處理,并根據處理結果建立索引資料庫,使用者檢索對應資訊時,可以從索引資料庫中進行相應的檢索,并得到對應的結果。
圖1-2 聚焦爬蟲運作的流程
這就是聚焦爬蟲的主要工作流程,了解聚焦爬蟲的主要工作流程有助于我們編寫聚焦爬蟲,使編寫的思路更加清晰。