今日目标:微網誌,以李易峰的微網誌為例:
然後進入評論頁面,進入XHR查找真是位址:
很明顯,是動态的,抓取也是按我以前寫的那些方法來,就不一一說了,他這裡最重要的還是那串數字,是以我們隻要在第一個網址哪裡把那串數字找出來就算成功一半了,這次需要用到re正則,嗯,這個我不擅長,不過沒事,應該還是可以搞到的:
輸出如下:

第一個就是我們需要的ID,後面則是發微網誌的時間,我們用它來做存儲評論資料的檔案名稱。
然後我們把ID傳入第二個網址:
當然這個是抓取熱度的,如你要抓取最新回複的,需要下面這個:
拿到這個就簡單了,JSON 資料,直接進json網站解析就行,然後找到我們需要的資料,這裡就直接上代碼了:
re 不太會用,大家将就着看,主要是能把資料搞到手,這個最重要,哈哈…
對比一下:
把那些表情給去除了,有些隻發表情沒法字的就會隻顯示名字,這個是正常的,其餘就是一毛一樣了。
資料拿到了,咱們就存儲到本地吧,全部代碼:
隻是測試,是以就隻爬了十幾頁:
爬下來後可以自己對比一下:
搞定!!!!