网络爬虫基本概念

2023-07-31 20:41:06

爬虫的概念

爬虫是模拟浏览器发送请求，获取响应

爬虫的流程

url–>发送请求，获取响应–>提取数据–>保存
发送请求，获取响应–>提取url

页面上的数据在哪

当前url对应响应的地方
其他url对应响应的地方

–比如ajax请求中
js生成的

–部分数据在响应中

–全部通过js生成

requests中解决编码方法

requests.text
requests.content.decode()
requests.content.decode(‘gbk’)

requests.text 与 requests.content

requests.text

–类型：str

–解码类型：根据HTTP头部响应的编码作出有根据的推测，推测的文本编码

–修改编码方式：response.encoding = ‘gbk’
requests.content

–类型：bytes

–解码类型：无指定

–修改编码方式：requests.content.decode(‘utf-8’)

数据可视化笔记网络爬虫

上一篇: 云服务器系统租赁费用,云服务器租赁费用

下一篇: 网络计算-基本概念数据通信的基本概念数据通讯方式

继续阅读