《精通Python網絡爬蟲：核心技術、架構與項目實戰》——1.6　小結

2021-11-08 06:17:29

本節書摘來自華章出版社《精通python網絡爬蟲：核心技術、架構與項目實戰》一書中的第1章，第1.6節，作者韋　玮，更多章節内容可以通路雲栖社群“華章計算機”公衆号檢視。

1）網絡爬蟲也叫作網絡蜘蛛、網絡螞蟻、網絡機器人等，可以自動地浏覽網絡中的資訊，當然浏覽資訊的時候需要按照我們制定的規則去浏覽，這些規則我們将其稱為網絡爬蟲算法。使用python可以很友善地編寫出爬蟲程式，進行網際網路資訊的自動化檢索。

2）學習爬蟲，可以：①私人訂制一個搜尋引擎，并且可以對搜尋引擎的資料采集工作原理，進行更深層次地了解；②為大資料分析提供更多高品質的資料源；③更好地研究搜尋引擎優化；④解決就業或跳槽的問題。

3）網絡爬蟲由控制節點、爬蟲節點、資源庫構成。

4）網絡爬蟲按照實作的技術和結構可以分為通用網絡爬蟲、聚焦網絡爬蟲、增量式網絡爬蟲、深層網絡爬蟲等類型。在實際的網絡爬蟲中，通常是這幾類爬蟲的組合體。

5）聚焦網絡爬蟲主要由初始url集合、url隊列、頁面爬行子產品、頁面分析子產品、頁面資料庫、連結過濾子產品、内容評價子產品、連結評價子產品等構成。

繼續閱讀