利用scrapy簡單爬取新片場前20頁視訊資料，并存入mysql資料庫

1ãåå»ºScrapyé¡¹ç®

scrapy startproject XPC

scrapy genspider xpc xinpianchang.com

3ãå®ä¹è¦æåçæ°æ®ï¼å¤çitems.pyæä»¶ï¼

# -*- coding: utf-8 -*-

import scrapy

class XpcItem(scrapy.Item):
    # è§é¢id
    v_id = scrapy.Field()
    # è§é¢åå
    video_name = scrapy.Field()
    # è§é¢åç±»
    category = scrapy.Field()
    # ä¸ä¼ æ¶é´
    up_time = scrapy.Field()
    # ææ¾é
    play_counts = scrapy.Field()
    # ç¹èµé
    like_counts = scrapy.Field()
    # è§é¢é¾æ¥å°å
    video_url = scrapy.Field()
    # è§é¢ä»ç»
    video_info = scrapy.Field()
    # jsonæä»¶å°åï¼è¿ä¸ªé¡µé¢å¯ä»¥æ¥çå°è§é¢çææ¾å°åvideo_url
    json_url = scrapy.Field()
    # è§é¢è¯¦æé¡µå°å
    video_detail_url = scrapy.Field()

4ãç¼åæåitemæ°æ®çSpiderï¼å¨spidersæä»¶å¤¹ä¸ï¼xpc.pyï¼

# -*- coding: utf-8 -*-
# è·åæ°çåºä½å
import re
import datetime
import scrapy
from ..items import XpcItem
import json

class XpcSpider(scrapy.Spider):
    name = 'xpc'
    allowed_domains = ['xinpianchang.com','openapi-vtom.vmovier.com']
    start_urls = ['https://www.xinpianchang.com/channel/index/type-/sort-like/duration_type-0/resolution_type-/page-1']

    def parse(self, response):
        # è·åè§é¢idï¼æ¯é¡µ40æ¡
        video_id = response.xpath('//div[@class="channel-con"]/ul[@class="video-list"]/li/@data-articleid').extract()
        for id in video_id:
            # è§é¢è¯¦æé¡µå°å
            video_detail_url = 'https://www.xinpianchang.com/a{}'.format(id)
            yield scrapy.Request(url=video_detail_url,meta={'meta_1':video_detail_url},callback=self.video_detail)
        # éç»å½ç¶æåªè½è·å20é¡µ
        total_page = 20
        for page in range(2,total_page+1):
            print("å¤çç¬¬%sé¡µ..."%page)
            url = 'https://www.xinpianchang.com/channel/index/type-/sort-like/duration_type-0/resolution_type-/page-'
            yield scrapy.Request(url=url+str(page),callback=self.parse)
    # è§é¢è¯¦æé¡µ
    def video_detail(self,response):
        # å¨spiderè¿è¡å°æä¸ªä½ç½®æ¶æåï¼æ¥çè¢«å¤ççresponseçæåµ
        # from scrapy.shell import inspect_response
        # inspect_response(response, self)
        meta_1 = response.meta['meta_1']
        # with open(meta_1.split('a')[-1] + ".html",'w',encoding='utf-8')as f:
        #     f.write(response.text)
        item = XpcItem()
        # è§é¢è¯¦æé¡µé¢
        item['video_detail_url'] = meta_1
        item['v_id'] = meta_1.split('a')[-1]
        # è§é¢åå
        video_name = response.xpath('//div[@class="title-wrap"]/h3/text()').extract_first()
        item['video_name'] = video_name.strip()
        # è§é¢åç±»
        # category = response.xpath('//span/span[contains(@class,"cate")]//text()').extract()
        # item['category'] = "".join([s.strip() for s in category])
        # è§é¢åç±»å¯è½æå¤ä¸ªï¼åå¤ææå ä¸ªåç±»ï¼åå¥æ°ä¸ªï¼å¶æ°ä¸ªæ¯ä¸ª|ç¬¦å·
        category_count = len(response.xpath("//span[contains(@class,'cate-box')]/span/a[1]"))
        if category_count >1:
            category_list = []
            for i in range(1,category_count+1):
                c = response.xpath("//span[contains(@class,'cate-box')]/span["+str(2*i-1)+"]/a/text()").extract()
                category_list.append("-".join([s.strip() for s in c]))
            item['category'] = ",".join(category_list)
        else:
            category = response.xpath('//span/span[contains(@class,"cate")]//text()').extract()
            item['category'] = "".join([s.strip() for s in category])
        # è§é¢ä¸ä¼ æ¶é´ï¼æ¶é´ä¼æ¾ç¤ºæ¨å¤©ä¸ç¥éå å·è¦è½¬æ¢
        up_time = response.xpath('//div/span[contains(@class,"update-time")]/i/text()').get()
        today = datetime.datetime.today()
        if 'æ¨å¤©' in up_time:
            yes = today - datetime.timedelta(days=1)
            up_time = up_time.replace('æ¨å¤©', yes.strftime("%Y-%m-%d"))
        elif 'ä»å¤©' in up_time:
            up_time = up_time.replace('ä»å¤©', today.strftime("%Y-%m-%d"))
        item['up_time'] = up_time
        # ææ¾é
        play_counts = response.xpath('//div/i[contains(@class,"play-counts")]/@data-curplaycounts').get()
        item['play_counts'] = play_counts
        # åæ¬¢éï¼ç¹èµé
        like_counts = response.xpath('//span/span[contains(@class,"like-counts")]/@data-counts').get()
        item['like_counts'] = like_counts
        # è§é¢è¿æ¥å°å
        # video_url = response.xpath('//*[@id="xpc_video"]/source/@src').extract_first()
        # item['video_url'] = video_url.strip()
        # è§é¢ä»ç»
        video_info= response.xpath('//div[@class="filmplay-info"]/div/p[1]/text()').extract()
        video_info = [s.strip() for s in video_info]
        item['video_info']= ','.join(video_info)
        # data-vidæ¯jsonæä»¶å°åçä¸é¨åï¼960VAm7OGE7DRnW8
        # https://openapi-vtom.vmovier.com/v3/video/960VAm7OGE7DRnW8?expand=resource&usage=xpc_web&appKey=61a2f329348b3bf77
        # â éè¿xpathè·ådata_vid
        # data_vid = response.xpath('//div[@class="filmplay-data"]/div/span/a/@data-vid').extract_first()
        # â¡éè¿æ£åè·ådata_vid
        patt_vid = re.compile(r'vid = "(\w+)";')
        data_vid = patt_vid.findall(response.text)[0]
        # modeServerAppKey=61a2f329348b3bf77è¿ä¸ªå¼ä¸ç¥éä¼ä¸ä¼å
        patt_modeServerAppKey = re.compile(r'modeServerAppKey = "(\w+)";')
        data_modeServerAppKey = patt_modeServerAppKey.findall(response.text)[0]
        # jsonæä»¶å°åï¼è¿ä¸ªé¡µé¢å¯ä»¥æ¥çå°è§é¢çææ¾å°åvideo_url
        json_url = 'https://openapi-vtom.vmovier.com/v3/video/{}?expand=resource&usage=xpc_web&appKey={}'.format(data_vid,data_modeServerAppKey)
        item['json_url'] = json_url
        yield scrapy.Request(url=json_url,meta={'meta_2':item},callback=self.video_address)
    # è§é¢å°å
    def video_address(self,respones):
        item = XpcItem()
        meta_2 = respones.meta['meta_2']
        item['v_id'] = meta_2['v_id']
        item['video_name'] = meta_2['video_name']
        item['video_detail_url'] = meta_2['video_detail_url']
        item['video_info'] = meta_2['video_info']
        item['json_url'] = meta_2['json_url']
        item['category'] = meta_2['category']
        item['up_time'] = meta_2['up_time']
        item['play_counts'] = meta_2['play_counts']
        item['like_counts'] = meta_2['like_counts']
        json_html = json.loads(respones.text)
        # resource = {'default':'','progressive':'','lowest':''}ï¼è¿éé¢æä¸åçæ¸æ°åº¦ï¼è¦è¿è¡å¤æ
        resource = json_html['data']['resource']
        if 'default' in resource.keys():
            item['video_url'] = json_html['data']['resource']['default']['url']
        elif 'progressive' in resource.keys():
            item['video_url'] = json_html['data']['resource']['progressive'][0]['url']
        else:
            item['video_url'] = json_html['data']['resource']['lowest']['url']
        yield item

# -*- coding: utf-8 -*-

import pymysql

class MySqlPipeline(object):
    @classmethod
    def from_crawler(cls,crawler):
        cls.MYSQL_HOST = crawler.settings.get('MYSQL_HOST')
        cls.MYSQL_PORT = crawler.settings.get('MYSQL_PORT')
        cls.MYSQL_USER = crawler.settings.get('MYSQL_USER')
        cls.MYSQL_PASSWD = crawler.settings.get('MYSQL_PASSWD')
        cls.MYSQL_DBNAME = crawler.settings.get('MYSQL_DBNAME')
        cls.MYSQL_CHARSET = crawler.settings.get('MYSQL_CHARSET')
        return cls()
    def __init__(self):
        self.db = pymysql.connect(host=self.MYSQL_HOST,port=self.MYSQL_PORT,user=self.MYSQL_USER,passwd=self.MYSQL_PASSWD,
                        db=self.MYSQL_DBNAME,charset=self.MYSQL_CHARSET)
        self.cursor = self.db.cursor()

    def process_item(self,item,spider):
        try:
            # å°è¯åå»ºxpcè¡¨
            # self.cursor.execute('DROP table IF EXISTS xpc')
            sql = 'CREATE TABLE IF NOT EXISTS xpc(v_id BIGINT primary key not null COMMENT "è§é¢é¡µid",' \
                  'video_name varchar(200),category varchar(100),up_time VARCHAR(50),play_counts INT(13),like_counts INT(13),' \
                  'video_detail_url varchar(100),video_url varchar(200),video_info LONGTEXT,' \
                  'json_url varchar(300))ENGINE =InnoDB DEFAULT CHARSET=utf8mb4;'
            self.cursor.execute(sql)
        except Exception as e:
            print("xpcè¡¨å·²åå¨ï¼æ éåå»ºï¼")
        try:
            # å»éå¤ç
            self.cursor.execute("SELECT v_id from xpc WHERE v_id=%s;",item['v_id'])
            repetition = self.cursor.fetchone()
            keys, values = zip(*item.items())
            # å¦æåå¨ï¼åä¸éæ°æå¥ï¼åªæ´æ°
            if repetition:
                # ON DUPLICATE KEY UPDATE:æ°æ®å·²åå¨ï¼åªæ¯æ´æ°é¨ååæ®µå¼ï¼å¦åæå¥éå¤keyå¼æ°æ®ä¼æ¥é
                sql = """
                    INSERT INTO xpc({})VALUES ({}) ON DUPLICATE KEY UPDATE {};""".format(
                    ','.join(keys),
                    ','.join(['%s']*len(values)),
                    ','.join(['{}=%s'.format(k) for k in keys]))
                self.cursor.execute(sql,values*2)
            else:
                sql = """
                    INSERT INTO xpc({})VALUES ({});""".format(
                    ','.join(keys),
                    ','.join(['%s'] * len(values)))
                self.cursor.execute(sql, values)
            self.db.commit()
            # print(self.cursor._last_executed)
            return item
        except Exception as e:
            print("åºéERROR:",e)
            self.db.rollback()

    def close_spider(self,spider):
        print("mysqlæ°æ®åºå¤çå®æ¯")
        self.cursor.close()
        self.db.close()

6.éç½®settingsæä»¶ï¼settings.pyï¼

ROBOTSTXT_OBEY = False

# éç½®æ°æ®åº
MYSQL_HOST = 'localhost'
MYSQL_PORT = 3306
MYSQL_USER = 'root'
MYSQL_PASSWD = '123456'
MYSQL_DBNAME = 'python5'
MYSQL_CHARSET = 'utf8mb4'

DOWNLOAD_DELAY = 3

DEFAULT_REQUEST_HEADERS = {
'User-Agesettingsnt': 'Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0);',
  # 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
  # 'Accept-Language': 'en',
}

ITEM_PIPELINES = {
   'XPC.pipelines.MySqlPipeline': 300,
}


# è¿å¯ä»¥å°æ¥å¿åå°æ¬å°æä»¶ä¸ï¼å¯éæ·»å è®¾ç½®ï¼
LOG_FILE = "xpc.log"
LOG_LEVEL = "DEBUG"
# åå«æå°ä¿¡æ¯ä¹ä¸èµ·åè¿æ¥å¿é
LOG_STDOUT = True

scrapy crawl xpc

利用scrapy簡單爬取新片場前20頁視訊資料，并存入mysql資料庫

繼續閱讀

來自python的【條件控制/語句循環/break/continue/else/pass】一、條件控制二、語句循環

無法解析的外部符号 wmain，該符号在函數 "void cdecl mainCRTStartupHelper(struct HINSTANCE *,unsigned short con......

TestLink導出用例轉換工具(XML2Excel)

YAML簡介和PyYAML安全操作YAML支援的類型YAML的優點：yaml的基本文法python操作

Small tricks

libsvm for python 安裝

學習軟體測試基礎測試第七天

Zeppelin 配置通路 REST APIApache Zeppelin Configuration REST API

【Torch】最簡潔logging使用指南

27. Remove Element(清單)題目代碼

Cloud Studio初體驗

使用 ctypes 進行 Python 和 C 的混合程式設計

【python】【資料處理】畫多元資料分布圖

【python】netconf協定對接管理裝置

「Python 網絡自動化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 網絡裝置

在python中建立excel并寫入