Crawler：基于BeautifulSoup库+requests库实现爬取2018最新电影《后来的我们》热门短评

2021-10-26 23:50:00

输出结果

Crawler：基于BeautifulSoup库+requests库实现爬取2018最新电影《后来的我们》热门短评

实现代码

# -*- coding: utf-8 -*-

#Py之Crawler：利用BeautifulSoup库实现爬取2018最新电影《后来的我们》热门短评

import time

import requests

import csv

from bs4 import BeautifulSoup

head = 'https://movie.douban.com/subject/'

middle = '/comments?start='

zr_tail = '&limit=20&sort=new_score&status=P&percent_type='

names = []

header = {

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0'

}

zr_urls = ['最热']

def createUrls():

for j in range(1, 34, 2):

name = names[j]

#print(name)

for i in range(0, 100, 20):

zr_urls.append(head + str(name) + middle + str(i) + zr_tail)

#print(zr_urls)得到某个电影短评地址(默认最热排序)，如

https://movie.douban.com/subject/27063335/comments?start=0&limit=20&sort=new_score&status=P&percent_type=

def readName():

with open('爬取电影名称.txt', mode='r', encoding='utf-8') as f:

for i in f.readlines():

i = i.strip('\n')

names.append(i)

#print(names)

readName()

createUrls()

get_comments(zr_urls) #传入zr_urls

Crawler：基于BeautifulSoup库+requests库实现爬取2018最新电影《后来的我们》热门短评

实现代码

继续阅读

今日头条iOS客户端启动速度优化技术调研实测数据

YAML简介和PyYAML安全操作YAML支持的类型YAML的优点：yaml的基本语法python操作

Small tricks

libsvm for python 安装

学习软件测试基础测试第七天

Zeppelin 配置访问 REST APIApache Zeppelin Configuration REST API

【Torch】最简洁logging使用指南

27. Remove Element(列表)题目代码

Windows下配置Apache的SSL服务

Mac｜Windows系统本地照片自动上传到服务器

Cloud Studio初体验

使用 ctypes 进行 Python 和 C 的混合编程

【python】【数据处理】画多维数据分布图

【python】netconf协议对接管理设备

「Python 网络自动化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 网络设备

在python中创建excel并写入