scrapy ------ 爬取豆瓣電影TOP250

2023-05-11 06:24:47

轉載自 —> 原文

#items.py
# -*- coding: utf-8 -*-
import scrapy

class DoubanMovieItem(scrapy.Item):
    ranking = scrapy.Field()        #排名
    movie_name = scrapy.Field()     #電影名稱
    score = scrapy.Field()          #評分
    score_num = scrapy.Field()      #評論人數

#douban_spider.py
#-*- coding:utf-8 -*-

from scrapy.spider import Spider
from scrapyspider.items import DoubanMovieItem
import scrapy


class DoubanMovieTop250spider(Spider):
    name = 'douban_movie_top250'
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36',
    }

    def start_requests(self):
        url = 'https://movie.douban.com/top250'
        yield scrapy.Request(url, headers=self.headers)

    def parse(self,response):
        item = DoubanMovieItem()
        movies = response.xpath('//ol[@class="grid_view"]/li')
        for movie in movies:
            item['ranking'] = movie.xpath('.//div[@class="pic"]/em/text()').extract()[]
            item['movie_name'] = movie.xpath('.//div[@class="hd"]/a/span[1]/text()').extract()[]
            item['score'] = movie.xpath('.//div[@class="star"]/span[@class="rating_num"]/text()').extract()[]
            item['score_num'] = movie.xpath('.//div[@class="star"]/span[4]/text()').extract()[]
            yield item

        next_url = response.xpath('//span[@class="next"]/a/@href').extract()  #擷取下一頁連結
        if next_url:
            next_url = 'https://movie.douban.com/top250' + next_url[]
            yield scrapy.Request(next_url, headers=self.headers)

scrapy ------ 爬取豆瓣電影TOP250

繼續閱讀

使用scrapy中crawlspider爬取csdn文章

使用 Python Scrapy 爬取微網誌内容【二】

Scrapy爬取大衆點評

Python+scrapy+mysql實作爬取磁力連結

windows 安裝 sklearnwindows 安裝 sklearn

python學習筆記：正規表達式 leah

辦公自動化：PDF檔案合并器，将多個PDF檔案進行合并...

用Python 的 Scrapy 爬取網站用Python 的 Scrapy 爬取網站

scrapy爬蟲之模拟登入豆瓣

win10 64位下 python3.6的scrapy架構安裝

Django筆記資料庫資料外鍵多對多關系通路

解決安裝Scrapy時報錯error: Unable to find vcvarsall.bat

Scrapy學習筆記VI--Item Loaders

python筆記：sklearn r2_score和explained_variance_score的本質差別是什麼？

通過scrapy，從模拟登入開始爬取知乎的問答資料

關于Scrapy 自定義Spider Middleware中遇到的坑