本節書摘來自華章出版社《精通python網絡爬蟲:核心技術、架構與項目實戰》一書中的第2章,第2.1節,作者 韋 玮,更多章節内容可以通路雲栖社群“華章計算機”公衆号檢視。
在上一章中,我們已經初步認識了網絡爬蟲,那麼網絡爬蟲具體能做些什麼呢?用網絡爬蟲又能做哪些有趣的事呢?在本章中我們将為大家具體講解。
如圖2-1所示,我們總結了網絡爬蟲的常用功能。

在圖2-1中可以看到,網絡爬蟲可以代替手工做很多事情,比如可以用于做搜尋引擎,也可以爬取網站上面的圖檔,比如有些朋友将某些網站上的圖檔全部爬取下來,集中進行浏覽,同時,網絡爬蟲也可以用于金融投資領域,比如可以自動爬取一些金融資訊,并進行投資分析等。
有時,我們比較喜歡的新聞網站可能有幾個,每次都要分别打開這些新聞網站進行浏覽,比較麻煩。此時可以利用網絡爬蟲,将這多個新聞網站中的新聞資訊爬取下來,集中進行閱讀。
有時,我們在浏覽網頁上的資訊的時候,會發現有很多廣告。此時同樣可以利用爬蟲将對應網頁上的資訊爬取過來,這樣就可以自動的過濾掉這些廣告,友善對資訊的閱讀與使用。
有時,我們需要進行營銷,那麼如何找到目标客戶以及目标客戶的聯系方式是一個關鍵問題。我們可以手動地在網際網路中尋找,但是這樣的效率會很低。此時,我們利用爬蟲,可以設定對應的規則,自動地從網際網路中采集目标使用者的聯系方式等資料,供我們進行營銷使用。
有時,我們想對某個網站的使用者資訊進行分析,比如分析該網站的使用者活躍度、發言數、熱門文章等資訊,如果我們不是網站管理者,手工統計将是一個非常龐大的工程。此時,可以利用爬蟲輕松将這些資料采集到,以便進行進一步分析,而這一切爬取的操作,都是自動進行的,我們隻需要編寫好對應的爬蟲,并設計好對應的規則即可。
除此之外,爬蟲還可以實作很多強大的功能。總之,爬蟲的出現,可以在一定程度上代替手工通路網頁,進而,原先我們需要人工去通路網際網路資訊的操作,現在都可以用爬蟲自動化實作,這樣可以更高效率地利用好網際網路中的有效資訊。