1.前言
本文的文字及圖檔來源于網絡,僅供學習、交流使用,不具有任何商業用途,如有問題請及時聯系我們以作處理。
PS:如有需要Python學習資料的小夥伴可以點選下方連結自行擷取
Python免費學習資料、代碼以及交流解答點選即可加入
最近愛奇藝獨播熱劇『贅婿』特别火,我也在一直追,借助手中的技術,想爬取彈幕分析該劇的具體情況以及網友的評論!
由于為了讓小白徹底學會使用python爬取愛奇藝彈幕的技術,是以本文詳細介紹如何進行爬取,下文再進行分析資料!
2.分析資料包
1.查找資料包
在浏覽器裡面按F12

找到這類url
https://cmts.iqiyi.com/bullet/54/00/7973227714515400_60_2_5f3b2e24.br
2.分析彈幕連結
其中的/54/00/7973227714515400,才是有用的!!!!
愛奇藝的彈幕擷取位址如下:
https://cmts.iqiyi.com/bullet/參數1_300_參數2.z
參數1是:/54/00/7973227714515400
參數2是:數字1、2、3.....
愛奇藝每5分鐘會加載新的彈幕,每一集約是46分鐘,46除以5向上取整就是10
是以彈幕的連結如下:
https://cmts.iqiyi.com/bullet/54/00/7973227714515400_300_1.z
https://cmts.iqiyi.com/bullet/54/00/7973227714515400_300_2.z
https://cmts.iqiyi.com/bullet/54/00/7973227714515400_300_3.z
......
https://cmts.iqiyi.com/bullet/54/00/7973227714515400_300_10.z
3.解碼二進制資料包
通過彈幕連結下載下傳的彈幕包是以z為字尾格式的檔案,需要進行解碼!
def zipdecode(bulletold):
'對zip壓縮的二進制内容解碼成文本'
decode = zlib.decompress(bytearray(bulletold), 15 + 32).decode('utf-8')
return decode
解碼之後将資料儲存成xml格式
# 把編碼好的檔案分别寫入個xml檔案中(類似于txt檔案),友善後邊取資料
with open('./lyc/zx' + str(x) + '.xml', 'a+', encoding='utf-8') as f:
f.write(xml)
3.解析xml
1.提取資料
通過檢視xml檔案,我們需要提取的内容有1.使用者id(uid)、2.評論内容(content)、3.評論點贊數(likeCount)。
#讀取xml檔案中的彈幕資料資料
from xml.dom.minidom import parse
import xml.dom.minidom
def xml_parse(file_name):
DOMTree = xml.dom.minidom.parse(file_name)
collection = DOMTree.documentElement
# 在集合中擷取所有entry資料
entrys = collection.getElementsByTagName("entry")
print(entrys)
result = []
for entry in entrys:
uid = entry.getElementsByTagName('uid')[0]
content = entry.getElementsByTagName('content')[0]
likeCount = entry.getElementsByTagName('likeCount')[0]
print(uid.childNodes[0].data)
print(content.childNodes[0].data)
print(likeCount.childNodes[0].data)
4.儲存資料
1.儲存前工作
import xlwt
# 建立一個workbook 設定編碼
workbook = xlwt.Workbook(encoding = 'utf-8')
# 建立一個worksheet
worksheet = workbook.add_sheet('sheet1')
# 寫入excel
# 參數對應 行, 列, 值
worksheet.write(0,0, label='uid')
worksheet.write(0,1, label='content')
worksheet.write(0,2, label='likeCount')
導入xlwt庫(寫入csv),并定義好标題(uid、content、likeCount)
2.寫入資料
for entry in entrys:
uid = entry.getElementsByTagName('uid')[0]
content = entry.getElementsByTagName('content')[0]
likeCount = entry.getElementsByTagName('likeCount')[0]
print(uid.childNodes[0].data)
print(content.childNodes[0].data)
print(likeCount.childNodes[0].data)
# 寫入excel
# 參數對應 行, 列, 值
worksheet.write(count, 0, label=str(uid.childNodes[0].data))
worksheet.write(count, 1, label=str(content.childNodes[0].data))
worksheet.write(count, 2, label=str(likeCount.childNodes[0].data))
count=count+1
最後儲存成彈幕資料集.xls
for x in range(1,11):
l = xml_parse("./lyc/zx" + str(x) + ".xml")
# 儲存
workbook.save('彈幕資料集.xls')
5.總結
1.通過實戰案例『贅婿』,手把手實作python爬取愛奇藝彈幕。
2.python解析xml格式資料。
3.将資料寫入excel。
本文相關資料:
https://github.com/bigtigeryo/iqiyidanmu