天天看點

網絡爬蟲-爬取指定城市空氣品質檢測資料

爬取指定城市空氣品質檢測資料

網站連結 → https://www.aqistudy.cn/historydata/

以月資料為例,見下圖:

網絡爬蟲-爬取指定城市空氣品質檢測資料

然後我們通過console調試可以發現 這個網頁在items裡面已經将資料打包好了,如下圖所示

網絡爬蟲-爬取指定城市空氣品質檢測資料

沒毛病,資料全都對得上,接下來的思路就是利用拼接url的方法,使用selenium進入網頁,利用selenium的注入js方法,直接讓網頁傳回我們想要的資料源,然後存儲下來即可。

result = browser.execute_script("return items") # 直接接受網頁傳回的json資料
           

好的 接下來就是喜聞樂見的測試環節了~

網絡爬蟲-爬取指定城市空氣品質檢測資料

可以發現并沒有什麼毛病。但是當我們打開存儲下來的CSV檔案的時候會發現!

網絡爬蟲-爬取指定城市空氣品質檢測資料

What the fuck? 跟我想象中的有出入啊! 咋回事呢小老弟全是亂碼 –

于是面向百度了解了一波

解決方案如下:

1. 先将CSV用txt記事本打開,然後選擇ANSI編碼方式。另存為,點編碼這裡,這裡的編碼有這麼幾種選擇ANSI/Unicode/Unicode big endian/UTF-8
2. 選擇ANSI,然後儲存,再用Excel打開,就不會有亂碼了。
           
網絡爬蟲-爬取指定城市空氣品質檢測資料
網絡爬蟲-爬取指定城市空氣品質檢測資料

OK 大功告成 資料格式也全都正确了 very nice!

github傳送門 → Go and have a look

繼續閱讀