2023爬虫学习笔记 -- 第一个Scrapy爬虫框架

2023-03-27 20:31:00

一、安装scrapy库文件

pip install scrapy

二、创建项目

1、在Pycharm的终端里面运行

scrapy startproject 项目名称

2、进入到创建的目录，并执行下面代码

cd kjpc
scrapy genspider 爬虫名字 任意一个网址（后面可以修改）

scrapy genspider pachong www.aiyou.com

3、自动创建的文件及目录

4、参数解释

name：就是爬虫的唯一标识，运行爬虫就是运行这个文件名字
allowed_domains：爬虫允许爬取的域名范围
start_urls：可以被scrapy发起get请求，可以填写多个地址
response：响应对象

5、修改相关配置settings.py，绕过某些限制

1、robots协议修改
ROBOTSTXT_OBEY = False
2、只查看日志的错误信息
LOG_LEVEL = 'ERROR'
3、添加头信息
USER_AGENT = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.36"

6、在pycharm的终端中运行项目

scrapy crawl pachong  打印日志信息
scrapy crawl pachong --nolog  不打印日志信息

7、源码

import scrapy
class PachongSpider(scrapy.Spider):
    name = "pachong"
    #allowed_domains = ["www.aiyou.com"]
    start_urls = ["https://www.baidu.com/","https://www.sina.com"]
    def parse(self, response):
        print("响应内容：",response)

2023爬虫学习笔记 -- 第一个Scrapy爬虫框架

继续阅读

SVM学习笔记（一）

阅读笔记--java编程思想第四版 --接口嵌套

法理学学习笔记Day4——法律规则重点知识点法的微观结构★★★★★（考察40次）（二级考点）法律规则（二级考点）1.法律

最大子段和问题（分治法和动态规划）

#人教五上预习#知识点总结#学习打卡ing#学习笔记#假期学习

持续更新调研报告写作资料，希望各位多多批评指正#写材料#学习资料分享#学习笔记#每天学习一点点

android学习笔记3：存储数据存储 Key-Value 集数据保存到文件

安卓学习笔记（九）网络编程网络编程

安卓学习笔记（一） Activity篇

django短信验证码的后端实现

天池龙珠计划Python训练营-task2笔记列表元组字符串字典集合序列

2022秋招cpp相关面试总结（长期更新）1、内存对齐2、类的占用空间死锁elf优化bin文件c语言和c++中const区别sizeof原理malloc一块内存free怎么找到头尾

2022秋招面试总结（cpp+java+测开）百度测开一面字节后端一面虾皮后端一面虾皮后端二面

nagios服务端搭建

Apache 虚拟主机搭建过程

判断浏览器类型与版本以及ios安卓判别