天天看點

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd"> <html><head><meta http-equiv="Cont

具體搭建步驟不再贅述,這裡主要使用到了fakeagent,phantomjs和proxy pyspider的爬取相當智能,在不能擷取圖檔的時候會适當的暫停一段時間再試探性的爬取,配合fakeagent,proxypool和phantomjs,爬取成功率在90%以上。 代碼是扒的别人的然後修改提高速度和成功率的,資料總量在百G左右,磁盤大的可以扒一扒。

代碼如下: