Spider (queue)下載下傳表情包案例

2023-07-03 04:51:30

import os

import requests
from lxml import etree
from urllib import request
from threading import Thread
from queue import Queue

img_queue = Queue()
url_queue = Queue()

BASE_DIR = os.path.dirname(os.path.abspath(__file__))

HEADERS = {
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.87 Safari/537.36',
    'Cookie': '__cfduid=dd64424b455df541fc9b3923cef61a9661573534965; UM_distinctid=16e5dfe20b27e2-0b235f820c1bfd-1d3c6a5a-13c680-16e5dfe20b3ad9; _ga=GA1.2.1548844508.1573534966; _gid=GA1.2.438142511.1573534966; __gads=Test; BAIDU_SSP_lcr=https://www.baidu.com/link?url=gM9DhsPWCFEV7dGzWICxtXEbS2dlLuXNBzPIuVY8K6YxGKHYgPzKlc3LjPB3x2eS&wd=&eqid=c5dcb28c00076e6a000000065dcb67f4; CNZZDATA1256911977=1171828334-1573530403-null%7C1573612169; XSRF-TOKEN=eyJpdiI6ImtFZEJTVVdMNzNNUDFXSE1cL2R3K09nPT0iLCJ2YWx1ZSI6IlEwSWk3aTZqMFE2Y3hYUTNrNmQwNjZ4cEZBRXFGa29wSnFMOWNwNDJpNXhMdHhtblJoXC9PRTlzZGdzbTB1cVJlIiwibWFjIjoiMGVhYjVkZmRlNzNmNjVlMWU1MWRhMWMwYWE0MTRiZDllNjBmMTA5MzM5NzljMDFhMTU4Zjg1OWM0ZDVlZTk3MSJ9; doutula_session=eyJpdiI6IjcyTzVRQUhBN3BNZmozaWFUTGo0M2c9PSIsInZhbHVlIjoiNUpidGlqd0FLdVU5VEVDQms2WFlKT0JvdTFEbldxRWljTmY0Zm5wRG9qb0grcjVWdWlTRjAzTUU5aklKN3RtUSIsIm1hYyI6ImY2YWNhZmVkNzA1NGRiOWNhMDFhMjljZGIzMjNmNzE3ZDVlYmM2YWUzYjhjZjI3Y2JjYTc0YmU0OGZkMDI2ZDYifQ%3D%3D',
    'Referer': 'http://www.doutula.com/photo/list/?page=3'
}

PROXY = {
    'http': '49.79.195.69:4256'
}

def parse_img():

    while True:

        if url_queue.empty():
            break

        d_url, page = url_queue.get()

        res = requests.get(d_url, headers=HEADERS, proxies=PROXY)
        con = res.text

        html = etree.HTML(con)

        srcs = html.xpath('//div[@class="random_picture"]//img/@data-original')
        alts = html.xpath('//div[@class="random_picture"]//img/@alt')

        img_path = os.path.join(BASE_DIR, 'bqb/%s' % page)
        if not os.path.exists(img_path):
            os.mkdir(img_path)

        for src, alt in zip(srcs, alts):
            ext = os.path.splitext(src)[1]
            img_name = alt + ext
            img_save_path = os.path.join(img_path, img_name)
            img_queue.put((src,img_save_path))

def down_img():

    while True:
        if img_queue.empty() and url_queue.empty():
            break
        src, img_path = img_queue.get()
        request.urlretrieve(src, img_path)

if __name__ == '__main__':

    for i in range(1, 50):
        url = 'http://www.doutula.com/photo/list/?page=%s' % i
        url_queue.put((url, i))


    data = []
    for i in range(0, 5):
        t = Thread(target=parse_img)
        data.append(t)

    for i in range(0, 5):
        t = Thread(target=down_img)
        data.append(t)


    for i in data:
        i.start()

Spider (queue)下載下傳表情包案例

繼續閱讀

jdk1.7+Eclipse+Maven3.5+Hadoop2.7.3建構hadoop項目

HDFS指令行工具

【51CTO學院三周年】自學路上的伴侶

線上教育巨頭多鄰國Duolingo入華一周年，中國市場馬力全開

【分類算法】什麼是分類算法定義分類與聚類分類過程方法

申請評分模型拒絕推斷（RI）方法申請評分模型拒絕推斷（RI）方法

Sql優化一：sql語句優化

Nacos 2.0 更新前後性能對比壓測

尚矽谷—韓順平—圖解 Java設計模式（結構型）（55～）

Storm編譯打包過程中遇到的一些問題及解決方法

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

9.spark Core 進階2--Cashe

淺談企業活動中進行資料分析的重要性

Ambari介紹和架構原理

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark