本節書摘來自華章出版社《精通python網絡爬蟲:核心技術、架構與項目實戰》一書中的第1章,第1.3節,作者 韋 玮,更多章節内容可以通路雲栖社群“華章計算機”公衆号檢視。
接下來,我們将介紹網絡爬蟲的組成。網絡爬蟲由控制節點、爬蟲節點、資源庫構成。
圖1-1所示是網絡爬蟲的控制節點和爬蟲節點的結構關系。

可以看到,網絡爬蟲中可以有多個控制節點,每個控制節點下可以有多個爬蟲節點,控制節點之間可以互相通信,同時,控制節點和其下的各爬蟲節點之間也可以進行互相通信,屬于同一個控制節點下的各爬蟲節點間,亦可以互相通信。
控制節點,也叫作爬蟲的中央控制器,主要負責根據url位址配置設定線程,并調用爬蟲節點進行具體的爬行。
爬蟲節點會按照相關的算法,對網頁進行具體的爬行,主要包括下載下傳網頁以及對網頁的文本進行處理,爬行後,會将對應的爬行結果存儲到對應的資源庫中。