《精通Python網絡爬蟲：核心技術、架構與項目實戰》——第2章網絡爬蟲技能總覽 2.1 網絡爬蟲技能總覽圖

2021-11-08 06:17:39

本節書摘來自華章出版社《精通python網絡爬蟲：核心技術、架構與項目實戰》一書中的第2章，第2.1節，作者韋　玮，更多章節内容可以通路雲栖社群“華章計算機”公衆号檢視。

在上一章中，我們已經初步認識了網絡爬蟲，那麼網絡爬蟲具體能做些什麼呢？用網絡爬蟲又能做哪些有趣的事呢？在本章中我們将為大家具體講解。

如圖2-1所示，我們總結了網絡爬蟲的常用功能。

《精通Python網絡爬蟲：核心技術、架構與項目實戰》——第2章網絡爬蟲技能總覽 2.1 網絡爬蟲技能總覽圖

在圖2-1中可以看到，網絡爬蟲可以代替手工做很多事情，比如可以用于做搜尋引擎，也可以爬取網站上面的圖檔，比如有些朋友将某些網站上的圖檔全部爬取下來，集中進行浏覽，同時，網絡爬蟲也可以用于金融投資領域，比如可以自動爬取一些金融資訊，并進行投資分析等。

有時，我們比較喜歡的新聞網站可能有幾個，每次都要分别打開這些新聞網站進行浏覽，比較麻煩。此時可以利用網絡爬蟲，将這多個新聞網站中的新聞資訊爬取下來，集中進行閱讀。

有時，我們在浏覽網頁上的資訊的時候，會發現有很多廣告。此時同樣可以利用爬蟲将對應網頁上的資訊爬取過來，這樣就可以自動的過濾掉這些廣告，友善對資訊的閱讀與使用。

有時，我們需要進行營銷，那麼如何找到目标客戶以及目标客戶的聯系方式是一個關鍵問題。我們可以手動地在網際網路中尋找，但是這樣的效率會很低。此時，我們利用爬蟲，可以設定對應的規則，自動地從網際網路中采集目标使用者的聯系方式等資料，供我們進行營銷使用。

有時，我們想對某個網站的使用者資訊進行分析，比如分析該網站的使用者活躍度、發言數、熱門文章等資訊，如果我們不是網站管理者，手工統計将是一個非常龐大的工程。此時，可以利用爬蟲輕松将這些資料采集到，以便進行進一步分析，而這一切爬取的操作，都是自動進行的，我們隻需要編寫好對應的爬蟲，并設計好對應的規則即可。

除此之外，爬蟲還可以實作很多強大的功能。總之，爬蟲的出現，可以在一定程度上代替手工通路網頁，進而，原先我們需要人工去通路網際網路資訊的操作，現在都可以用爬蟲自動化實作，這樣可以更高效率地利用好網際網路中的有效資訊。

《精通Python網絡爬蟲：核心技術、架構與項目實戰》——第2章網絡爬蟲技能總覽 2.1 網絡爬蟲技能總覽圖

繼續閱讀

來自python的【條件控制/語句循環/break/continue/else/pass】一、條件控制二、語句循環

無法解析的外部符号 wmain，該符号在函數 "void cdecl mainCRTStartupHelper(struct HINSTANCE *,unsigned short con......

TestLink導出用例轉換工具(XML2Excel)

YAML簡介和PyYAML安全操作YAML支援的類型YAML的優點：yaml的基本文法python操作

Small tricks

libsvm for python 安裝

學習軟體測試基礎測試第七天

Zeppelin 配置通路 REST APIApache Zeppelin Configuration REST API

【Torch】最簡潔logging使用指南

27. Remove Element(清單)題目代碼

Cloud Studio初體驗

使用 ctypes 進行 Python 和 C 的混合程式設計

【python】【資料處理】畫多元資料分布圖

【python】netconf協定對接管理裝置

「Python 網絡自動化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 網絡裝置

在python中建立excel并寫入

《精通Python網絡爬蟲：核心技術、架構與項目實戰》——第2章 網絡爬蟲技能總覽 2.1 網絡爬蟲技能總覽圖

繼續閱讀

《精通Python網絡爬蟲：核心技術、架構與項目實戰》——第2章網絡爬蟲技能總覽 2.1 網絡爬蟲技能總覽圖