天天看点

pyhton爬取爱豆(李易峰)微博评论

今日目标:微博,以李易峰的微博为例:

然后进入评论页面,进入XHR查找真是地址:

很明显,是动态的,抓取也是按我以前写的那些方法来,就不一一说了,他这里最重要的还是那串数字,所以我们只要在第一个网址哪里把那串数字找出来就算成功一半了,这次需要用到re正则,嗯,这个我不擅长,不过没事,应该还是可以搞到的:

输出如下:

pyhton爬取爱豆(李易峰)微博评论

第一个就是我们需要的ID,后面则是发微博的时间,我们用它来做存储评论数据的文件名称。

然后我们把ID传入第二个网址:

当然这个是抓取热度的,如你要抓取最新回复的,需要下面这个:

拿到这个就简单了,JSON 数据,直接进json网站解析就行,然后找到我们需要的数据,这里就直接上代码了:

re 不太会用,大家将就着看,主要是能把数据搞到手,这个最重要,哈哈…

pyhton爬取爱豆(李易峰)微博评论

对比一下:

pyhton爬取爱豆(李易峰)微博评论

把那些表情给去除了,有些只发表情没法字的就会只显示名字,这个是正常的,其余就是一毛一样了。

数据拿到了,咱们就存储到本地吧,全部代码:

只是测试,所以就只爬了十几页:

pyhton爬取爱豆(李易峰)微博评论

爬下来后可以自己对比一下:

pyhton爬取爱豆(李易峰)微博评论

搞定!!!!