本節書摘來自華章出版社《精通python網絡爬蟲:核心技術、架構與項目實戰》一書中的第1章,第1.6節,作者 韋 玮,更多章節内容可以通路雲栖社群“華章計算機”公衆号檢視。
1)網絡爬蟲也叫作網絡蜘蛛、網絡螞蟻、網絡機器人等,可以自動地浏覽網絡中的資訊,當然浏覽資訊的時候需要按照我們制定的規則去浏覽,這些規則我們将其稱為網絡爬蟲算法。使用python可以很友善地編寫出爬蟲程式,進行網際網路資訊的自動化檢索。
2)學習爬蟲,可以:①私人訂制一個搜尋引擎,并且可以對搜尋引擎的資料采集工作原理,進行更深層次地了解;②為大資料分析提供更多高品質的資料源;③更好地研究搜尋引擎優化;④解決就業或跳槽的問題。
3)網絡爬蟲由控制節點、爬蟲節點、資源庫構成。
4)網絡爬蟲按照實作的技術和結構可以分為通用網絡爬蟲、聚焦網絡爬蟲、增量式網絡爬蟲、深層網絡爬蟲等類型。在實際的網絡爬蟲中,通常是這幾類爬蟲的組合體。
5)聚焦網絡爬蟲主要由初始url集合、url隊列、頁面爬行子產品、頁面分析子產品、頁面資料庫、連結過濾子產品、内容評價子產品、連結評價子產品等構成。