天天看點

Python系列爬蟲之Scrapy實戰 | 中國地震台網爬蟲前言開發工具環境搭建資料爬取

Python系列爬蟲之Scrapy實戰 | 中國地震台網爬蟲前言開發工具環境搭建資料爬取

前言

總感覺最近好多地震的新聞,就想着爬一波地震相關的資料來看看。

開發工具

Python 版本:3.6.4
相關子產品:

scrapy子產品;

jieba子產品;

pyecharts子產品;

folium子產品;

wordcloud子產品;

fake_useragent子產品;

以及一些Python自帶的子產品。

環境搭建

安裝Python并添加到環境變量,pip安裝需要的相關子產品即可。

資料爬取

首先建立一個project:

Python系列爬蟲之Scrapy實戰 | 中國地震台網爬蟲前言開發工具環境搭建資料爬取

然後打開中國地震台網:

http://news.ceic.ac.cn/index.html
           

發現使用網站自帶的查詢功能就可以查詢到指定時間和經緯度範圍的地震資料:

Python系列爬蟲之Scrapy實戰 | 中國地震台網爬蟲前言開發工具環境搭建資料爬取

OK,那就開始寫代碼吧~

先在items.py檔案内定義我們要爬取的資料:

class EarthquakeItem(scrapy.Item):
           

在spiders檔案夾下建立main.py函數寫我們爬蟲主程式,這裡我們爬取的是從2000年1月1日開始至今網站上所有有記錄的地震資料(事實上,跑完代碼發現網站裡隻有從2012年開始的地震資料T_T):

'''main'''
           

OK,大功告成了,在第一個earthquake檔案夾下運作如下指令就行了:

scrapy crawl earthquake -o eqdata.json -t json
           

爬取的資料将儲存在eqdata.json檔案内。

看完篇文章喜歡的朋友點個贊,關注我每天分享Python資料爬蟲案例,下個視訊分享Python抓取并分析天氣資料及中國地震網資料可視化

All done,,完整源代碼詳見個人簡介或者私信擷取相關檔案。