具體搭建步驟不再贅述,這裡主要使用到了fakeagent,phantomjs和proxy pyspider的爬取相當智能,在不能擷取圖檔的時候會适當的暫停一段時間再試探性的爬取,配合fakeagent,proxypool和phantomjs,爬取成功率在90%以上。 代碼是扒的别人的然後修改提高速度和成功率的,資料總量在百G左右,磁盤大的可以扒一扒。
代碼如下:
具體搭建步驟不再贅述,這裡主要使用到了fakeagent,phantomjs和proxy pyspider的爬取相當智能,在不能擷取圖檔的時候會适當的暫停一段時間再試探性的爬取,配合fakeagent,proxypool和phantomjs,爬取成功率在90%以上。 代碼是扒的别人的然後修改提高速度和成功率的,資料總量在百G左右,磁盤大的可以扒一扒。
代碼如下: