天天看点

2000-2020年中国村(居)委会及其以上区划代码和数据2000-2020年中国村(居)委会及其以上区划代码和数据

2000-2020年中国村(居)委会及其以上区划代码和数据

背景

要求分析2000年到2020年,中国城乡区划的空间变化,查阅到开源数据有国家统计局统计用区划和城乡划分代码数据。

方法

步骤一:配置环境

python环境配置

网上教程太多,安装anaconda就好,只需要把路径添加到系统环境变量中

redis数据库的配置

由于需要爬取数据量比较大,我是用的是scrapy-redis框架,分布式爬取,所以用到redis数据库,具体方法请参考我的知乎文章linux 安装配置redis - 知乎 (zhihu.com)以及这个win10 部署scrapy-redis - 知乎 (zhihu.com)

配置一个虚拟环境(选做)

这部分不是必须的,但是我个人习惯做爬虫类,我就用一个爬虫类的虚拟环境进行

步骤二:编写核心代码

编写scrapy爬虫代码,使用这个框架,你不用再浪费心思去思考异步等问题,只需要专心写你提取的规则就好。

步骤三

启动项目,静静等待数据采集

步骤四:从存储数据中提取数据

最终爬取完之后,数据都存在redis数据库中,可以使用redis-dump工具,进行数据的迁移。

结果

代码已开源,请参考https://gitee.com/bahapku/china_area_code

数据已经整理好,有需要请邮件联系[email protected]告知具体诉求,拒绝商业化利用!!!

声明

拒绝恶意爬取,拒绝商业化利用,非本人允许,禁止转载。