今日目标:微博,以李易峰的微博为例:
然后进入评论页面,进入XHR查找真是地址:
很明显,是动态的,抓取也是按我以前写的那些方法来,就不一一说了,他这里最重要的还是那串数字,所以我们只要在第一个网址哪里把那串数字找出来就算成功一半了,这次需要用到re正则,嗯,这个我不擅长,不过没事,应该还是可以搞到的:
输出如下:

第一个就是我们需要的ID,后面则是发微博的时间,我们用它来做存储评论数据的文件名称。
然后我们把ID传入第二个网址:
当然这个是抓取热度的,如你要抓取最新回复的,需要下面这个:
拿到这个就简单了,JSON 数据,直接进json网站解析就行,然后找到我们需要的数据,这里就直接上代码了:
re 不太会用,大家将就着看,主要是能把数据搞到手,这个最重要,哈哈…
对比一下:
把那些表情给去除了,有些只发表情没法字的就会只显示名字,这个是正常的,其余就是一毛一样了。
数据拿到了,咱们就存储到本地吧,全部代码:
只是测试,所以就只爬了十几页:
爬下来后可以自己对比一下:
搞定!!!!