Python爬蟲入門教程 6-100 蜂鳥網圖檔爬取之一

1. 蜂鳥網圖檔簡介

國慶假日結束了，新的工作又開始了，今天我們繼續爬取一個網站，這個網站為

http://image.fengniao.com/

，蜂鳥一個攝影大牛聚集的地方，本教程請用來學習，不要用于商業目的，不出意外，蜂鳥是有版權保護的網站。

2. 蜂鳥網圖檔網站分析

第一步，分析要爬取的網站有沒有方法爬取，打開頁面，找分頁

http://image.fengniao.com/index.php?action=getList&class_id=192&sub_classid=0&page=1&not_in_id=5352384,5352410
http://image.fengniao.com/index.php?action=getList&class_id=192&sub_classid=0&page=2&not_in_id=5352384,5352410
http://image.fengniao.com/index.php?action=getList&class_id=192&sub_classid=0&page=3&not_in_id=5352384,5352410
http://image.fengniao.com/index.php?action=getList&class_id=192&sub_classid=0&page=4&not_in_id=5352384,5352410

上面的頁面發現一個關鍵的參數

page=1

這個就是頁碼了，但是另一個比較頭疼的問題是，他沒有最後的頁碼，這樣我們沒有辦法确定循環次數，是以後面的代碼編寫中，隻能使用

while

了

這個位址傳回的是JSON格式的資料，這個對爬蟲來說，非常友好！省的我們用正規表達式分析了。

分析這個頁面的頭檔案，查閱是否有反爬措施

發現除了HOST和User-Agent以外，沒有特殊的點，大網站就是任性，沒啥反爬，可能壓根不在乎這個事情。

第二步，分析圖檔詳情頁面，在我們上面擷取到的JSON中，找到關鍵位址

關鍵位址打開之後，這個地方有一個比較騷的操作了，上面圖檔中标注的URL選的不好，恰好是一個文章了，我們要的是組圖，重新提供一個新連結

http://image.fengniao.com/slide/535/5352130_1.html#p=1

打開頁面，你可能直接去找規律了，找到下面的一堆連結，但是這個操作就有點複雜了，我們查閱上述頁面的源碼

http://image.fengniao.com/slide/535/5352130_1.html#p=1
http://image.fengniao.com/slide/535/5352130_1.html#p=2
http://image.fengniao.com/slide/535/5352130_1.html#p=3
....

網頁源碼中發現了，這麼一塊區域

大膽的猜測一下，這個應該是圖檔的JSON，隻是他列印在了HTML中，我們隻需要用正規表達式進行一下比對就好了，比對到之後，然後進行下載下傳。

第三步，開始撸代碼。

3. 蜂鳥網圖檔寫代碼

from http_help import R  # 這個檔案自己去上篇部落格找，或者去github找
import threading
import time
import json
import re

img_list = []
imgs_lock = threading.Lock()  #圖檔操作鎖


# 生産者類
class Product(threading.Thread):

    def __init__(self):
        threading.Thread.__init__(self)

        self.__headers = {"Referer":"http://image.fengniao.com/",
                          "Host": "image.fengniao.com",
                          "X-Requested-With":"XMLHttpRequest"
                          }
        #連結模闆
        self.__start = "http://image.fengniao.com/index.php?action=getList&class_id=192&sub_classid=0&page={}&not_in_id={}"
        self.__res = R(headers=self.__headers)


    def run(self):

        # 因為不知道循環次數，所有采用while循環
        index = 2 #起始頁碼設定為1
        not_in = "5352384,5352410"
        while True:
            url  = self.__start.format(index,not_in)
            print("開始操作:{}".format(url))
            index += 1

            content = self.__res.get_content(url,charset="gbk")

            if content is None:
                print("資料可能已經沒有了====")
                continue

            time.sleep(3)  # 睡眠3秒
            json_content = json.loads(content)

            if json_content["status"] == 1:
                for item in json_content["data"]:
                    title = item["title"]
                    child_url =  item["url"]   # 擷取到連結之後 代碼來源，公衆号：非大學程式員

                    img_content = self.__res.get_content(child_url,charset="gbk")

                    pattern = re.compile('"pic_url_1920_b":"(.*?)"')
                    imgs_json = pattern.findall(img_content)
                    if len(imgs_json) > 0:

                        if imgs_lock.acquire():
                            img_list.append({"title":title,"urls":imgs_json})   # 這個地方，我用的是字典+清單的方式，主要是想後面生成檔案夾用，你可以進行改造
                            imgs_lock.release()

上面的連結已經生成，下面就是下載下傳圖檔了，也非常簡單

# 消費者
class Consumer(threading.Thread):
    def __init__(self):
        threading.Thread.__init__(self)
        self.__res = R()

    def run(self):

        while True:
            if len(img_list) <= 0:
                continue  # 進入下一次循環

            if imgs_lock.acquire():

                data = img_list[0]
                del img_list[0]  # 删除第一項

                imgs_lock.release()

            urls =[url.replace("\\","") for url in data["urls"]]

            # 建立檔案目錄
            for item_url in urls:
               try:
                   file =  self.__res.get_file(item_url)
                   # 記得在項目根目錄先把fengniaos檔案夾建立完畢，代碼來源，公衆号：非大學程式員
                   with open("./fengniaos/{}".format(str(time.time())+".jpg"), "wb+") as f:
                       f.write(file)
               except Exception as e:
                   print(e)

代碼走起，結果

Python爬蟲入門教程 6-100 蜂鳥網圖檔爬取之一

1. 蜂鳥網圖檔簡介

2. 蜂鳥網圖檔網站分析

3. 蜂鳥網圖檔寫代碼

繼續閱讀

Small tricks

libsvm for python 安裝

學習軟體測試基礎測試第七天

Zeppelin 配置通路 REST APIApache Zeppelin Configuration REST API

【Torch】最簡潔logging使用指南

27. Remove Element(清單)題目代碼

Cloud Studio初體驗

使用 ctypes 進行 Python 和 C 的混合程式設計

【python】【資料處理】畫多元資料分布圖

vue-cli簡介（中文翻譯）

面試題解析：你接口測試是怎麼做的？

Ajax發送和擷取json資料到Spring mvc 1.spring mvc後端2.web前段

【python】netconf協定對接管理裝置

「Python 網絡自動化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 網絡裝置

JSONObject包導入異常 java.lang.NoClassDefFoundErrorweb項目的導入包的問題

在python中建立excel并寫入