1.前言

本文的文字及圖檔來源于網絡,僅供學習、交流使用,不具有任何商業用途,如有問題請及時聯系我們以作處理。

PS：如有需要Python學習資料的小夥伴可以點選下方連結自行擷取

Python免費學習資料、代碼以及交流解答點選即可加入

最近愛奇藝獨播熱劇『贅婿』特别火，我也在一直追，借助手中的技術，想爬取彈幕分析該劇的具體情況以及網友的評論！

由于為了讓小白徹底學會使用python爬取愛奇藝彈幕的技術，是以本文詳細介紹如何進行爬取，下文再進行分析資料！

2.分析資料包

1.查找資料包

在浏覽器裡面按F12

以『贅婿』為實戰案例，手把手教會你用python爬取『愛奇藝』視訊彈幕1.前言2.分析資料包3.解析xml4.儲存資料5.總結

找到這類url

https://cmts.iqiyi.com/bullet/54/00/7973227714515400_60_2_5f3b2e24.br

2.分析彈幕連結

其中的/54/00/7973227714515400，才是有用的！！！！

愛奇藝的彈幕擷取位址如下：

https://cmts.iqiyi.com/bullet/參數1_300_參數2.z

參數1是：/54/00/7973227714515400

參數2是：數字1、2、3.....

愛奇藝每5分鐘會加載新的彈幕，每一集約是46分鐘,46除以5向上取整就是10

是以彈幕的連結如下：

https://cmts.iqiyi.com/bullet/54/00/7973227714515400_300_1.z
https://cmts.iqiyi.com/bullet/54/00/7973227714515400_300_2.z
https://cmts.iqiyi.com/bullet/54/00/7973227714515400_300_3.z
......
https://cmts.iqiyi.com/bullet/54/00/7973227714515400_300_10.z

3.解碼二進制資料包

通過彈幕連結下載下傳的彈幕包是以z為字尾格式的檔案，需要進行解碼！

def zipdecode(bulletold):
    '對zip壓縮的二進制内容解碼成文本'
    decode = zlib.decompress(bytearray(bulletold), 15 + 32).decode('utf-8')
    return decode

解碼之後将資料儲存成xml格式

# 把編碼好的檔案分别寫入個xml檔案中（類似于txt檔案），友善後邊取資料
  with open('./lyc/zx' + str(x) + '.xml', 'a+', encoding='utf-8') as f:
      f.write(xml)

以『贅婿』為實戰案例，手把手教會你用python爬取『愛奇藝』視訊彈幕1.前言2.分析資料包3.解析xml4.儲存資料5.總結

3.解析xml

1.提取資料

以『贅婿』為實戰案例，手把手教會你用python爬取『愛奇藝』視訊彈幕1.前言2.分析資料包3.解析xml4.儲存資料5.總結

通過檢視xml檔案，我們需要提取的内容有1.使用者id（uid）、2.評論内容（content）、3.評論點贊數（likeCount）。

#讀取xml檔案中的彈幕資料資料
from xml.dom.minidom import parse
import xml.dom.minidom
def xml_parse(file_name):
    DOMTree = xml.dom.minidom.parse(file_name)
    collection = DOMTree.documentElement
    # 在集合中擷取所有entry資料
    entrys = collection.getElementsByTagName("entry")
    print(entrys)
    result = []
    for entry in entrys:
        uid = entry.getElementsByTagName('uid')[0]
        content = entry.getElementsByTagName('content')[0]
        likeCount = entry.getElementsByTagName('likeCount')[0]
        print(uid.childNodes[0].data)
        print(content.childNodes[0].data)
        print(likeCount.childNodes[0].data)

以『贅婿』為實戰案例，手把手教會你用python爬取『愛奇藝』視訊彈幕1.前言2.分析資料包3.解析xml4.儲存資料5.總結

4.儲存資料

1.儲存前工作

import xlwt
# 建立一個workbook 設定編碼
workbook = xlwt.Workbook(encoding = 'utf-8')
# 建立一個worksheet
worksheet = workbook.add_sheet('sheet1')

# 寫入excel
# 參數對應 行, 列, 值
worksheet.write(0,0, label='uid')
worksheet.write(0,1, label='content')
worksheet.write(0,2, label='likeCount')

導入xlwt庫（寫入csv），并定義好标題（uid、content、likeCount）

2.寫入資料

for entry in entrys:
    uid = entry.getElementsByTagName('uid')[0]
    content = entry.getElementsByTagName('content')[0]
    likeCount = entry.getElementsByTagName('likeCount')[0]
    print(uid.childNodes[0].data)
    print(content.childNodes[0].data)
    print(likeCount.childNodes[0].data)
    # 寫入excel
    # 參數對應 行, 列, 值
    worksheet.write(count, 0, label=str(uid.childNodes[0].data))
    worksheet.write(count, 1, label=str(content.childNodes[0].data))
    worksheet.write(count, 2, label=str(likeCount.childNodes[0].data))
    count=count+1

最後儲存成彈幕資料集.xls

for x in range(1,11):
    l = xml_parse("./lyc/zx" + str(x) + ".xml")

# 儲存
workbook.save('彈幕資料集.xls')

以『贅婿』為實戰案例，手把手教會你用python爬取『愛奇藝』視訊彈幕1.前言2.分析資料包3.解析xml4.儲存資料5.總結

5.總結

1.通過實戰案例『贅婿』，手把手實作python爬取愛奇藝彈幕。

2.python解析xml格式資料。

3.将資料寫入excel。

本文相關資料：

https://github.com/bigtigeryo/iqiyidanmu

以『贅婿』為實戰案例，手把手教會你用python爬取『愛奇藝』視訊彈幕1.前言2.分析資料包3.解析xml4.儲存資料5.總結

1.前言

2.分析資料包

1.查找資料包

2.分析彈幕連結

3.解碼二進制資料包

3.解析xml

1.提取資料

4.儲存資料

1.儲存前工作

2.寫入資料

5.總結

繼續閱讀

無法解析的外部符号 wmain，該符号在函數 "void cdecl mainCRTStartupHelper(struct HINSTANCE *,unsigned short con......

TestLink導出用例轉換工具(XML2Excel)

YAML簡介和PyYAML安全操作YAML支援的類型YAML的優點：yaml的基本文法python操作

Small tricks

libsvm for python 安裝

學習軟體測試基礎測試第七天

Zeppelin 配置通路 REST APIApache Zeppelin Configuration REST API

【Torch】最簡潔logging使用指南

27. Remove Element(清單)題目代碼

sort()函數到底是怎樣進行數字排序的

Cloud Studio初體驗

使用 ctypes 進行 Python 和 C 的混合程式設計

【python】【資料處理】畫多元資料分布圖

【python】netconf協定對接管理裝置

「Python 網絡自動化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 網絡裝置

在python中建立excel并寫入