涉及知識點
1、抓取資料
2、分頁爬蟲
規律分析
1、抓取資料,發現每一項都是data-tools标簽

2、分頁分析
代碼
結果
後續的思考
代碼都很簡單,高手要懂得如何去擴充。現在雖然資料都爬下來了,但是非常淩亂,仍然需要人工去分析比對。這樣的資料我稱之為裸資料,理想的資料是可讀且有關聯的,我稱之為金子資料。
這個轉換分析的過程涉及到兩個問題:
1、如何實作可讀?
可以用字典裡面的del[]方法删去壞的資料
2、如何實作資料的關聯性?
先将裸資料進行二次分析,将相關的字項放到一塊,然後再做運作