目标 | 規模 | 特點 | 技術要求 |
爬取網頁 玩轉網頁 | 小規模 | 數量小,爬取速度不敏感 | 使用Requests庫就可以滿足需求 |
爬取網站 爬取系列網站 | 中規模 | 資料量較大,對爬取速度敏感,爬慢了,資料就可能更新了 | 可以使用Scrapy庫來實作 |
爬取全網 | 大規模 | 一般用于搜尋引擎,如百度、google、bing等,爬取速度很關鍵 |
網絡爬蟲引發的問題有三:
- 騷擾伺服器,降低伺服器的性能
- 可能會帶來内容層面的法律風險,如爬取了某些文章來牟利。
- 可能會帶來個人隐私洩漏的問題,因為爬蟲可以發現很多隐密的連結