Scrapy爬蟲架構(二):導出爬取結果

2023-04-08 07:04:28

·功能描述：爬取豆瓣電影 TOP-250,爬取内容（電影标題，評分人數，評分）

·編輯 items.py 檔案

# -*- coding: utf-8 -*-

import scrapy

class DoubanMovieItem(scrapy.Item):
    # 排名
    ranking = scrapy.Field()
    # 電影名稱
    titles = scrapy.Field()
    # 評分
    scores = scrapy.Field()
    # 評論人數
    persons= scrapy.Field()

·編輯檔案夾spiders/ 下的爬蟲檔案

from scrapy.spiders import Spider
from scrapy import Request
from Scrapy_one.items import DoubanMovieItem

#功能描述：爬取 豆瓣 電影 TOP-250,爬取内容（電影标題，評分人數，評分）

class BlogSpider(Spider):

    #爬蟲名稱，隻有一個
    name = 'douban_Top-250'

    #僞裝浏覽器
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36',
    }

    #設定目标位址，并調用headers
    def start_requests(self):
        url = 'https://movie.douban.com/top250'
        yield Request(url, headers=self.headers)

    #根據源碼 選擇 爬取内容
    def parse(self, response):

        item = DoubanMovieItem()
        movies = response.xpath('//ol[@class="grid_view"]/li')#選擇 内容段

        for movie in movies:#從内容段 拆分 内容
            #備注：記得使用相對路徑 “.//”
            item['ranking'] = movie.xpath('.//div[@class="pic"]/em/text()').extract()#排名
            item['titles'] = movie.xpath('.//div[@class="hd"]/a/span[1]/text()').extract()#标題
            item['persons'] = movie.xpath('.//div[@class="star"]/span[4]/text()').extract()#評分人數
            item['scores'] = movie.xpath('.//div[@class="star"]/span[@class="rating_num"]/text()').extract()#評分
            yield item

        next_url = response.xpath('//span[@class="next"]/a/@href').extract()#跳轉下一頁的連結
        if next_url:#判斷是否有下一頁，如果有則跳轉下一頁的連結
            next_url = 'https://movie.douban.com/top250' + next_url[0]
            yield Request(next_url, headers=self.headers)

·導出csv：scrapy crawl douban_Top-250 -o douban1-Top250.csv --備注：需在項目檔案夾中運作

Scrapy爬蟲架構(二):導出爬取結果

繼續閱讀

無法解析的外部符号 wmain，該符号在函數 "void cdecl mainCRTStartupHelper(struct HINSTANCE *,unsigned short con......

TestLink導出用例轉換工具(XML2Excel)

YAML簡介和PyYAML安全操作YAML支援的類型YAML的優點：yaml的基本文法python操作

Small tricks

libsvm for python 安裝

學習軟體測試基礎測試第七天

Zeppelin 配置通路 REST APIApache Zeppelin Configuration REST API

【Torch】最簡潔logging使用指南

27. Remove Element(清單)題目代碼

sort()函數到底是怎樣進行數字排序的

Cloud Studio初體驗

使用 ctypes 進行 Python 和 C 的混合程式設計

【python】【資料處理】畫多元資料分布圖

【python】netconf協定對接管理裝置

「Python 網絡自動化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 網絡裝置

在python中建立excel并寫入