天天看點

用Python爬取大火的《海王》豆瓣評論01.分析頁面02.分别擷取評論03. 做成詞雲04. 效果

“ 最近海王大火,今天就來看看豆瓣上對于海王這個大片的評論吧”

Just Do It By Yourself

01.分析頁面

豆瓣的評論區如下

用Python爬取大火的《海王》豆瓣評論01.分析頁面02.分别擷取評論03. 做成詞雲04. 效果

可以看到這裡需要進行翻頁處理,通過觀察發現,評論的URL如下:

https://movie.douban.com/subject/3878007/comments?start=0&limit=20&sort=new_score&status=P&percent_type=l

每次翻一頁,start都會增長20,由此可以寫代碼如下

用Python爬取大火的《海王》豆瓣評論01.分析頁面02.分别擷取評論03. 做成詞雲04. 效果

使用range函數,步長設定為20,同時通過title等于“沒有通路權限”來作為翻頁的終點。

02.分别擷取評論

豆瓣的評論是分為三個等級的,這裡分别擷取,友善後面的繼續分析

用Python爬取大火的《海王》豆瓣評論01.分析頁面02.分别擷取評論03. 做成詞雲04. 效果

其實可以看到,這裡的三段差別主要在請求URL那裡,分别對應豆瓣的好評,一般和差評。

最後把得到的資料儲存到檔案裡

用Python爬取大火的《海王》豆瓣評論01.分析頁面02.分别擷取評論03. 做成詞雲04. 效果

03. 做成詞雲

這裡使用jieba來分詞,使用wordcloud庫制作詞雲,還是分成三類,同時去掉了一些幹擾詞,比如“一部”、“一個”、“故事”和一些其他名詞,操作都不是很難,直接上代碼

用Python爬取大火的《海王》豆瓣評論01.分析頁面02.分别擷取評論03. 做成詞雲04. 效果

04. 效果

好評

用Python爬取大火的《海王》豆瓣評論01.分析頁面02.分别擷取評論03. 做成詞雲04. 效果

一般

用Python爬取大火的《海王》豆瓣評論01.分析頁面02.分别擷取評論03. 做成詞雲04. 效果

差評

用Python爬取大火的《海王》豆瓣評論01.分析頁面02.分别擷取評論03. 做成詞雲04. 效果

感覺爬取豆瓣還是比較簡單的,畢竟并沒有設定什麼反爬手段,小夥伴們也可以一起動手試試。

本文為簡潔起見省略了一些細節代碼,完整源碼可見:我的Github

也可以關注我的公衆号,或者加入Python入門實戰QQ交流群:617870323

用Python爬取大火的《海王》豆瓣評論01.分析頁面02.分别擷取評論03. 做成詞雲04. 效果