这两天简单的爬取了抖音的一些数据下面做一下简单的记录
第一步 找到抖音的接口!
- 抓包工具 ,这里我采用了Charlesv4.5.6(青花瓷)windows 版本,在此之前使用了fildder很坑不要去尝试;这是 Charles的官网 下载最新的版本, 链接: Charles官网.
- Charles 的安装教程 参考链接: windows / Mac 上配置 charles 抓包手机. 按照此教程一步一步来,就可以完美的实现手机抓包
- 补充一点,上方的教程 没有此步 当弹出类似下面图片的时候 必须要点Allow,为了和手机链接上。还有 如果没有抓到包要关闭防火墙以及qq管家之类的~
- 下面是成功 找到 抖音 评论 接口的 图片
第二步 要写爬取 该视频下的评论的代码!
# -*- coding: utf-8 -*-
"""
"""
import requests
import time
from douyin import get_X_gorgon
# import time
def get_hour_list():
_rticket = int(str(time.time() * 1000).split('.')[0])
ts = str(int(_rticket / 1000))
url = 'https://api3-normal-c-lq.amemv.com/aweme/v2/comment/list/?version_code=11.6.0&js_sdk_version=1.68.1.0&apme=aweme&app_version=11.6.0&vid=F6E7CB5D-B381-4F57-87A6-9309AB2985E3&device_id=67327432840&channel=App%20Store&mcc_mnc=46002&aid=1128&screen_width=1242&openudid=437296a5c82e6c0b8d404d20967ef5e09213e58b&cdid=010BD0FC-0B49-4D73-8BC3-42BF7D41D8C4&os_api=18&ac=WIFI&os_versi.5.1&build_number=116019&device_platform=iphone&iid=958427000215487&device_type=iPhone11,6&is_vcd=1&idfa=DF85AED6-8C2E-4ECE-A1BA-57ACA57BE788&hotsoon_filtered_count=0&aweme_id=6854832504147381518&count=20&hotsoon_has_more=0&is_familiar=0&forward_page_type=1&address_book_access=2&channel_id=21&city=130100&cursor=0&gps_access=3&follower_count=0&insert_ids=&page_resource=0'
# cookies = 'd_ticket=c90cba17563014f6da47c5789a2d3b1f84b18; odin_tt=c48db2fdad46bd23316ac172bba5cba20453c185e08b0b851c49349f972649fbd1bc97ff0c070dfa26c31ce8019c063f09692d857b83ff4ac581eb50dc0f8275; sid_guard=38e5a2d2d1b832fde4667e5bea5a1367%7C1590736940%7C5184000%7CTue%2C+28-Jul-2020+07%3A22%3A20+GMT; uid_tt=565d172429fef00f6df5a5cbf82a97dc; sid_tt=38e5a2d2d1b832fde4667e5bea5a1367; sessionid=38e5a2d2d1b832fde4667e5bea5a1367; install_id=1028786593992525; ttreq=1$acb357c7964511c40cf4169918aca5fcbb22a7e8'
cookies = 'odin_tt=61f299ab2f1248173f3998e97ccae9120c572bafe3fb41b91664e04a657b5fc558231e81b3cf3a751285811449b;sessionid=274a771261d090af8fabe0d5c25cc274;sessionid_ss=274a7712610d5c25cc274;sid_guard=274a771261d090af8fabe0d5c25cc274%7C1594824999%7C5184000%7CSun%2C+13-Sep-2020+14%3A56%3A39+GMT;sid_tt=274a771261d090af8fabe0d5c25cc274;uid_tt=32e5fb2b0fec015ea8f290139da8b7f1;uid_tt_ss=32e5fb2b0fec015ea8f290139da8b7f1;install_id=958427000215487;ttreq=1$09bc94c6f3e2788fe94905d538dad62c325b29ae;'
gorgon = get_X_gorgon(url, cookies, ts)
header = {
"Accept-Encoding": "gzip",
"sdk-version": "1",
"Cookie": cookies,
"x-tt-token": "00274a771261d090af8fabe0d5c25cc274e6647342ca64625440ac64b615b901bd642e3542b94678e315156841a824e-1.0.0",
"X-Gorgon": gorgon,
"X-Khronos": ts,
# "Host": "webcast.amemv.com",
# "Connection": "Keep-Alive",
"User-Agent": "Aweme 11.6.0 rv:116019 (iPhone; iOS 13.5.1; zh_CN) Cronet"
}
try:
res = requests.get(url, headers=header)
except Exception as e:
print(e)
else:
# top_list = []
info = res.json().get('comments')
print(type(info))
for i in info:
# 评论
text = i.get('text')
# uid
uid = i.get('user').get('uid')
# nickname
nickname = i.get('user').get('nickname')
# total_favorited 点赞数
total_favorited = i.get('user').get('total_favorited')
data = "评论:%s,uid:%s,评论人:%s" % (text,uid,nickname)
time.sleep(1)
print(data)
result = {'begin_time': info, }
return result
if __name__ == '__main__':
result = get_hour_list()
import pprint
# print(result)
- 代码 没什么好说的,主要是 评论接口的查找,cookies 的拼接,还有header 的各个参数。最重要的就是 抖音的 x-gorgon 参数的加密了 有了它 就很轻松的爬取你想要的数据了。我爬取的抖音版本是11.6.0 抖音升级的化可能会导致 参数的失效
- 把 cookies 一个一个拼接起来中间用分号隔开。(双击cookie所在行 就可以 复制全部了!)
- 部分 x-gorgon 的代码 下面是爬取的 部分评论
免责声明
请勿使用本服务于商用
请勿使用本服务大量抓取
若因使用本服务与抖音官方造成不必要的纠纷,本人盖不负责
本人纯粹技术爱好,若侵犯抖音贵公司的权益,请告知删除