天天看點

【資料分析】python分析百度搜尋關鍵詞的頻率

涉及知識點

    1、抓取資料

    2、分頁爬蟲

規律分析

1、抓取資料,發現每一項都是data-tools标簽

【資料分析】python分析百度搜尋關鍵詞的頻率

2、分頁分析

【資料分析】python分析百度搜尋關鍵詞的頻率

代碼

結果

【資料分析】python分析百度搜尋關鍵詞的頻率

後續的思考

    代碼都很簡單,高手要懂得如何去擴充。現在雖然資料都爬下來了,但是非常淩亂,仍然需要人工去分析比對。這樣的資料我稱之為裸資料,理想的資料是可讀且有關聯的,我稱之為金子資料。

    這個轉換分析的過程涉及到兩個問題:

        1、如何實作可讀?

              可以用字典裡面的del[]方法删去壞的資料

        2、如何實作資料的關聯性?

              先将裸資料進行二次分析,将相關的字項放到一塊,然後再做運作