天天看點

網易雲音樂評論爬蟲(三):爬取歌曲的全部評論

用過網易雲音樂聽歌的朋友都知道,網易雲音樂每首歌曲後面都有很多評論,熱門歌曲的評論更是接近百萬或者是超過百萬條.現在我就來分享一下如何爬取網易雲音樂歌曲的全部評論,由于網易雲音樂的評論都做了混淆加密處理,是以我們需要深入了解它的加密過程之後才能爬取到網易雲音樂歌曲的全部評論. 

一,首先分析資料的請求方式

網易雲音樂歌曲頁面的URL形式為https://music.163.com/#/song?id=歌曲id号,這裡我用Delacey的Dream it possible 為例進行講解,它的URL為https://music.163.com/#/song?id=38592976.接下來開始分析資料的請求方式.

由于網易雲音樂的評論是通過Ajax傳輸,我們打開浏覽器的開發者工具(檢查元素),選中控制台中的Network,再點選XHR(捕獲ajax資料),然後點選左上角的重新加載,會看到下面圖檔中的資料請求清單

網易雲音樂評論爬蟲(三):爬取歌曲的全部評論
點選R_SO_4_38592976?csrf_token=cdee144903c5a32e6752f50180329fc9這一行,再點選Preview
網易雲音樂評論爬蟲(三):爬取歌曲的全部評論
發現我們所需要的資料就在這json格式的資料中,其中comments中是第一頁的全部評論,一共20條,hotcomments是精彩評論一共有15條,每首歌曲隻有第一頁評論才有精彩評論.接着看一下它的請求頭,點選Headers
網易雲音樂評論爬蟲(三):爬取歌曲的全部評論
我們發現的它是個post請求,向下滑你會發現這個post請求還帶有資料
網易雲音樂評論爬蟲(三):爬取歌曲的全部評論

這些資料都是經過加密處理的,是以我們需要分析它的加密過程來生成相應的參數,然後把加密後的參數加到post請求中才能擷取到我們需要的評論資料.

二,分析加密過程

通過斷點調試發現params和encSecKey是由js腳本中的window.asrsea()函數生成的.

網易雲音樂評論爬蟲(三):爬取歌曲的全部評論

我們發現window.asrsea()函數有4個參數,在浏覽器的js控制台分别對這四個參數進行調試:

後面三個參數是定值,隻有第一個參數是控制評論頁面偏移量的參數,它是一個變量.筆者經過分析發現第一個參數的形式是:

{"rid":"R_SO_4_38592976","offset":"0","total":"True","limit":"20","csrf_token":""}           

下面我來詳細講解這個變量的發現過程:

首先找到core_dfe56728795d119e4d476fd09ea2dc51.js這個js腳本,然後将斷點打在第12973行,點選第一頁評論,頁面加載到斷點處便停止了

網易雲音樂評論爬蟲(三):爬取歌曲的全部評論

通過這幾頁的分析,我們可以得到i1x值的變化規律,且可以得到它的一般形式:

{"rid":"R_SO_4_38592976","offset":"0","total":"True","limit":"20","csrf_token":""}           

offset和limit是必選參數,其他參數是可選的,其他參數不影響data資料的生成,offset (頁面偏移量) = (頁數-1) * 20, 注意limit最大值為100,當設為100時,擷取第二頁時,預設前一頁是20個評論,也就是說第二頁最新評論有80個,有20個是第一頁顯示的.是以我們可以構造第一個參數為:

# 偏移量,page是頁數

offset = (page-1) * 20

msg = '{"offset":' + str(offset) + ',"total":"True","limit":"20","csrf_token":""}'

接下來,我們來看一下window.asrsea()函數的整個加密過程:

!function() {

// 函數a生成長度為16的随機字元串

function a(a) {

var d, e, b = "abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789", c = "";

for (d = 0; a > d; d += 1) e = Math.random() * b.length, e = Math.floor(e), c += b.charAt(e);

, d = CryptoJS.enc.Utf8.parse("0102030405060708")

return c } // 函數b實作AES加密 function b(a, b) { var c = CryptoJS.enc.Utf8.parse(b)

return f.toString()

, e = CryptoJS.enc.Utf8.parse(a) , f = CryptoJS.AES.encrypt(e, c, { iv: d, mode: CryptoJS.mode.CBC }); }

e = encryptedString(d, a)

// 函數c實作RSA加密 function c(a, b, c) { var d, e; return setMaxDigits(131), d = new RSAKeyPair(b,"",c), }

h.encSecKey = c(i, e, f),

function d(d, e, f, g) { var h = {} , i = a(16); return h.encText = b(d, g), h.encText = b(h.encText, i), h }

}();

function e(a, b, d, e) { var f = {}; return f.encText = c(a + e, b, d), f } window.asrsea = d,

window.ecnonasr = e

window.asrsea()函數就是上面的d函數,現在我們來看函數d:

function d(d, e, f, g) {

var h = {}

return h.encText = b(d, g), // 第一次AES加密

, i = a(16);

h.encText = b(h.encText, i), // 第二次AES加密

h.encSecKey = c(i, e, f), // RSA加密 h

}

參數h.encText是經過兩次AES加密得到的,h.encSecKey是經過一次RSA加密得到的,其中i是随機生成的長度為16的随機字元串.

三,生成加密參數

首先我們需要生成長度為16的随機字元串,這裡我們仿照上面的javascript的實作,用Python生成16位長的随機字元串:

# 生成随機字元串

def generate_random_strs(length):

string = "abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789"

# 控制次數參數i i = 0 # 初始化随機字元串 random_strs = "" while i < length:

random_strs = random_strs + list(string)[e]

e = random.random() * len(string) # 向下取整 e = math.floor(e) i = i + 1

return random_strs

接着用Python實作AES加密,這裡要用到pycrypto庫,先安裝好這個庫:

pip install pycrypto           

然後導入加密子產品:

from Crypto.Cipher import AES           

由于AES加密的明文長度必須是16的倍數,是以我們需要對明文進行必要的填充,以滿足它的長度是16的倍數:

# msg是需要加密的明文,如果不是16的倍數則進行填充(paddiing)

padding = 16 - len(msg) % 16

msg = msg + padding * chr(padding)

# 這裡使用padding對應的單字元進行填充

AES加密的模式是AES.MODE_CBC,初始化向量iv=’0102030405060708′,具體的AES加密:

# AES加密

def AESencrypt(msg, key):

# 如果不是16的倍數則進行填充(paddiing)

padding = 16 - len(msg) % 16

# 這裡使用padding對應的單字元進行填充

msg = msg + padding * chr(padding)

# 用來加密或者解密的初始向量(必須是16位) iv = '0102030405060708'

# 加密後得到的是bytes類型的資料

cipher = AES.new(key, AES.MODE_CBC, iv) encryptedbytes = cipher.encrypt(msg)

# 對byte字元串按utf-8進行解碼

# 使用Base64進行編碼,傳回byte字元串 encodestrs = base64.b64encode(encryptedbytes)

return enctext

enctext = encodestrs.decode('utf-8')

然後是RSA加密.首先我簡單介紹一下RSA的加密過程.在RSA中,明文,密鑰和密文都是數字.RSA的加密過程可以用下列的公式來表達,這個公式非常的重要,你隻有了解了這個公式,才能用Python實作RSA加密.

密文 = 明文E mod N (RSA加密)           

RSA的密文是對代表明文的數字的E次方求mod N 的結果, 通俗的講就是将明文和自己做E次乘法,然後将其結果除以N 求餘數,這個餘數就是密文.

下面來看具體的RSA加密代碼實作:

# RSA加密

def RSAencrypt(randomstrs, key, f):

# 随機字元串逆序排列

# 将随機字元串轉換成byte類型資料

string = randomstrs[::-1]

seckey = int(codecs.encode(text, encoding='hex'), 16)**int(key, 16) % int(f, 16)

text = bytes(string, 'utf-8') # 傳回整數的小寫十六進制形式

return format(seckey, 'x').zfill(256)

RSA加密後得到的字元串長為256,如果不夠長則進行填充(不足部分在左側添0).

最後就是擷取那兩個加密參數:

# 擷取參數

def get_params(page):

# msg也可以寫成msg = {"offset":"頁面偏移量=(頁數-1) * 20", "limit":"20"},offset和limit這兩個參數必須有(js)

# limit最大值為100,當設為100時,擷取第二頁時,預設前一頁是20個評論,也就是說第二頁最新評論有80個,有20個是第一頁顯示的 # 偏移量

msg = '{"offset":' + str(offset) + ',"total":"True","limit":"20","csrf_token":""}'

offset = (page-1) * 20 # offset和limit是必選參數,其他參數是可選的,其他參數不影響data資料的生成,最好還是保留

f = '00e0b509f6259df8642dbc35662901477df22677ec152b5ff68ace615bb7b725152b3ab17a876aea8a5aa76d2e417629ec4ee341f56135fccf695280104e0312ecbda92557c93870114af6c9d05c4f7f0c3685b7a46bee255932575cce10b424d813cfe4875d3e82047b97ddef52741d546b8e289dc6935b3ece0462db0a22b8e7'

key = '0CoJUm6Qyw8W8jud' e = '010001' enctext = AESencrypt(msg, key) # 生成長度為16的随機字元串

# RSA加密之後得到encSecKey的值

i = generate_random_strs(16) # 兩次AES加密之後得到params的值 encText = AESencrypt(enctext, i)

return encText, encSecKey

encSecKey = RSAencrypt(i, e, f)

四,擷取全部評論

上面我們擷取到了兩個參數encText和encSecKey,利用這兩個參數來構造post表單資料(Form Data),即data的值:

params, encSecKey = get_params(page)

data = {'params': params, 'encSecKey': encSecKey}

歌曲評論的URL為:

url = 'https://music.163.com/weapi/v1/resource/comments/R_SO_4_' + str(songid) + '?csrf_token='           

然後把data加到post的參數中去就能擷取到json格式的評論資料.

html = requests.post(url, headers=headers, data=data)           

至此,擷取網易雲音樂全部評論的Python爬蟲實作原理分析全部完成!若想擷取全部代碼請上我的Github:擷取網易雲音樂歌曲全部評論代碼

https://github.com/zyingzhou/wangyiyun_music/blob/master/get_comments.py

原文釋出時間為:2018-11-21

本文作者:xxx

本文來自雲栖社群合作夥伴“

Python愛好者社群

”,了解相關資訊可以關注“

”。