天天看点

简单爬取天眼查数据 附代码

通过火狐浏览器抓包,可以发现,所要数据都在下图的json文件里

简单爬取天眼查数据 附代码

查看其请求

简单爬取天眼查数据 附代码

伪装成浏览器爬取该文件:

返回结果如下:

简单爬取天眼查数据 附代码

状态码为403,常规爬取不成功。考虑下面一种方式。

首先下载phantomjs到本地,并将phantomjs.exe存放在系统环境变量所在目录下(本人讲该文件放置在d:/anaconda2/路径下)。

为phantomjs添加useragent信息(经测试,不添加useragent信息爬取到的是错乱的信息):

获取网页源代码:

对照网页,爬取的源代码信息正确,接下去解析代码,获取对应的信息。

简单写了下获取基础信息的代码:

这仅仅是单页面的一个示例,要写完整的爬虫项目加工,以后再花时间改进。

简单爬取天眼查数据 附代码

继续阅读