天天看点

爬虫的具体步骤

1、所需要数据对应的真实URL地址
2、找到对应的请求方式 
3、使用第三方包,构造请求(注意需要进行伪装,headers的伪装,最重要的是需要进行浏览器伪装--User-Agent)
4、发送请求
5、收到响应之后,需要对响应体数据进行解析(普通的页面text,如果是多媒体文件是content)
6、将拿到的页面或者多媒体文件按照需求进行提取(正则)
7、将获取到的目标文件进行保存