分析Ajax爬取B站python視訊

B 站真是個神奇的網站。找不到資料了，去 B 站逛一逛，保準有你滿意的東西。

前幾天寫了個爬蟲，用 path、re、BeautifulSoup 爬取的 B 站 python 視訊，但是這個爬蟲有有個缺陷，沒能擷取視訊的圖檔資訊，如果你去嘗試你會發現它根本就不在傳回的結果裡面。今天就用分析 Ajax 的方法擷取到。

分析頁面

通常我們在分析頁面的時候，都要切換到 Network 分析url 從中找到我們想要的 url 。但是找不到 url 你怎麼分析？B 站就是這麼神奇的存在，我們最後分析确定的 url 是這個：

url = 'https://api.bilibili.com/x/web-interface/search/type?jsonp=jsonp&&search_type=video&highlight=1&keyword=python&page={}'.format(page)

打開 B 站，搜尋 python ，打開開發者工具，切換到 Network 你可以去找找，還真是沒有。

至于怎麼找到的呢，我也是摸索了好長時間才發現

圖檔

點一下搜尋，這個 url 才會出現，或者點一下下一頁

詳情

然後就構造這個請求就可以了。

需要注意的是最後一個參數不能添加。

代碼實戰

import requests
import json,re,time
import pandas as pd
from requests.exceptions import RequestException

class Spider():

    def get_page(self,page):
        try:
            headers = {
                'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64)'
                              ' AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36',
            }
            url = 'https://api.bilibili.com/x/web-interface/search/type?jsonp=jsonp&&search_type=video&highlight=1&keyword=python&page={}'.format(page)
            r = requests.get(url,headers)
            if r.status_code == 200:
                return r.text
            else:
                print(r.status_code)
        except RequestException:
            print('請求失敗')
            return None

    def parse_page(self,html):
        #轉換成JSON對象，好操作
        data = json.loads(html)

        results = data.get('data').get('result')
        for result in results:
            #擷取圖檔位址
            image_url = result['pic']
            #擷取視訊位址
            video_url = result['arcurl']
            #擷取作者
            video_author = result['author']
            #擷取視訊标題，中間有額外的字元，用re替換一下
            video_title = result['title']
            video_title = re.sub('<em class="keyword">[Pp]ython</em>','Python',video_title)
            #擷取播放量
            video_play = result['play']
            #擷取上傳時間,這裡将時間戳轉換成标準格式
            video_date = result['pubdate']
            timestr = time.localtime(video_date)
            video_date = time.strftime('%Y-%m-%d %H-%M-%S',timestr)
            print(image_url,video_url,video_title,video_play,video_date)

    def run(self):
        for i in range(1,3):
            html = self.get_page(i)
            self.parse_page(html)

def main():
    spider = Spider()
    spider.run()

if __name__ == '__main__':
    main()

代碼裡面有些解釋已經很清楚了，在這裡再次複習一下

re.sub()

這個函數傳入五個參數，前三個是必須傳入的 pattern,、repl、 string

第一個是表示的是正規表達式中模式字元串
第二個是要被替換的字元串
第三個是文本字元串

剩下兩個可選參數，一個是 count 一個是 flag 。

時間戳轉換成标準格式的時間

第一種方法

import time
timeStamp = 1581418600
timeArray = time.localtime(timeStamp)
otherStyleTime = time.strftime("%Y-%m-%d %H:%M:%S", timeArray)
print otherStyleTime

第二種方法

import time
import datetime
timeStamp = 1381419600
dateArray = datetime.datetime.utcfromtimestamp(timeStamp)
otherStyleTime = dateArray.strftime("%Y-%m-%d %H:%M:%S")
print otherStyleTime

綜上就是這次的全部内容，多加練習繼續加油！

分析Ajax爬取B站python視訊

分析頁面

代碼實戰

繼續閱讀

libsvm for python 安裝

學習軟體測試基礎測試第七天

Zeppelin 配置通路 REST APIApache Zeppelin Configuration REST API

【Torch】最簡潔logging使用指南

27. Remove Element(清單)題目代碼

Windows下配置Apache的SSL服務

Mac｜Windows系統本地照片自動上傳到伺服器

Cloud Studio初體驗

使用 ctypes 進行 Python 和 C 的混合程式設計

【python】【資料處理】畫多元資料分布圖

vue-cli簡介（中文翻譯）

Ajax發送和擷取json資料到Spring mvc 1.spring mvc後端2.web前段

【python】netconf協定對接管理裝置

「Python 網絡自動化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 網絡裝置

JSONObject包導入異常 java.lang.NoClassDefFoundErrorweb項目的導入包的問題

在python中建立excel并寫入