“ 最近海王大火,今天就來看看豆瓣上對于海王這個大片的評論吧”
Just Do It By Yourself
01.分析頁面
豆瓣的評論區如下
可以看到這裡需要進行翻頁處理,通過觀察發現,評論的URL如下:
https://movie.douban.com/subject/3878007/comments?start=0&limit=20&sort=new_score&status=P&percent_type=l
每次翻一頁,start都會增長20,由此可以寫代碼如下
使用range函數,步長設定為20,同時通過title等于“沒有通路權限”來作為翻頁的終點。
02.分别擷取評論
豆瓣的評論是分為三個等級的,這裡分别擷取,友善後面的繼續分析
其實可以看到,這裡的三段差別主要在請求URL那裡,分别對應豆瓣的好評,一般和差評。
最後把得到的資料儲存到檔案裡
03. 做成詞雲
這裡使用jieba來分詞,使用wordcloud庫制作詞雲,還是分成三類,同時去掉了一些幹擾詞,比如“一部”、“一個”、“故事”和一些其他名詞,操作都不是很難,直接上代碼
04. 效果
好評
一般
差評
感覺爬取豆瓣還是比較簡單的,畢竟并沒有設定什麼反爬手段,小夥伴們也可以一起動手試試。
本文為簡潔起見省略了一些細節代碼,完整源碼可見:我的Github
也可以關注我的公衆号,或者加入Python入門實戰QQ交流群:617870323