天天看點

網絡爬蟲根據尺寸分類

目标 規模 特點 技術要求
爬取網頁 玩轉網頁 小規模 數量小,爬取速度不敏感 使用Requests庫就可以滿足需求
爬取網站 爬取系列網站 中規模 資料量較大,對爬取速度敏感,爬慢了,資料就可能更新了 可以使用Scrapy庫來實作
爬取全網 大規模 一般用于搜尋引擎,如百度、google、bing等,爬取速度很關鍵

網絡爬蟲引發的問題有三:

  1. 騷擾伺服器,降低伺服器的性能
  2. 可能會帶來内容層面的法律風險,如爬取了某些文章來牟利。
  3. 可能會帶來個人隐私洩漏的問題,因為爬蟲可以發現很多隐密的連結

網站如果限制網絡爬蟲呢?

繼續閱讀