本節書摘來自華章出版社《精通python網絡爬蟲:核心技術、架構與項目實戰》一書中的第3章,第3.8節,作者 韋 玮,更多章節内容可以通路雲栖社群“華章計算機”公衆号檢視。
1)聚焦網絡爬蟲,由于其需要有目的地進行爬取,是以對于通用網絡爬蟲來說,必須要增加目标的定義和過濾機制,具體來說,此時,其執行原理和過程需要比通用網絡爬蟲多出3步,即目标的定義、無關連結的過濾、下一步要爬取的url位址的選取。
2)常見的網頁更新政策主要有3種:使用者體驗政策、曆史資料政策、聚類分析政策。
3)聚類分析可以依據商品之間的共性進行相應的處理,将共性較多的商品聚為一類。
4)在爬蟲對網頁爬取的過程中,爬蟲必然需要通路對應的網頁,此時,正規的爬蟲一般會告訴對應網頁的網站站長其爬蟲身份。網站的管理者則可以通過爬蟲告知的身份資訊對爬蟲的身份進行識别,我們稱這個過程為爬蟲的身份識别過程。
5)開發網絡爬蟲的語言有很多,常見的語言有python、java、php、node.js、c++、go語言等。
6)metaseeker是一款比較實用的網站資料采集程式,使用該采集程式,可以讓大家比較快速、形象地了解爬蟲的工作過程。