B 站真是個神奇的網站。找不到資料了,去 B 站逛一逛,保準有你滿意的東西。
前幾天寫了個爬蟲,用 path、re、BeautifulSoup 爬取的 B 站 python 視訊,但是這個爬蟲有有個缺陷,沒能擷取視訊的圖檔資訊,如果你去嘗試你會發現它根本就不在傳回的結果裡面。今天就用分析 Ajax 的方法擷取到。
分析頁面
通常我們在分析頁面的時候,都要切換到 Network 分析url 從中找到我們想要的 url 。但是找不到 url 你怎麼分析?B 站就是這麼神奇的存在,我們最後分析确定的 url 是這個:
url = 'https://api.bilibili.com/x/web-interface/search/type?jsonp=jsonp&&search_type=video&highlight=1&keyword=python&page={}'.format(page)
打開 B 站,搜尋 python ,打開開發者工具,切換到 Network 你可以去找找,還真是沒有。
至于怎麼找到的呢,我也是摸索了好長時間才發現
圖檔
點一下搜尋,這個 url 才會出現,或者點一下下一頁
詳情
然後就構造這個請求就可以了。
需要注意的是最後一個參數不能添加。
代碼實戰
import requests
import json,re,time
import pandas as pd
from requests.exceptions import RequestException
class Spider():
def get_page(self,page):
try:
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64)'
' AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36',
}
url = 'https://api.bilibili.com/x/web-interface/search/type?jsonp=jsonp&&search_type=video&highlight=1&keyword=python&page={}'.format(page)
r = requests.get(url,headers)
if r.status_code == 200:
return r.text
else:
print(r.status_code)
except RequestException:
print('請求失敗')
return None
def parse_page(self,html):
#轉換成JSON對象,好操作
data = json.loads(html)
results = data.get('data').get('result')
for result in results:
#擷取圖檔位址
image_url = result['pic']
#擷取視訊位址
video_url = result['arcurl']
#擷取作者
video_author = result['author']
#擷取視訊标題,中間有額外的字元,用re替換一下
video_title = result['title']
video_title = re.sub('<em class="keyword">[Pp]ython</em>','Python',video_title)
#擷取播放量
video_play = result['play']
#擷取上傳時間,這裡将時間戳轉換成标準格式
video_date = result['pubdate']
timestr = time.localtime(video_date)
video_date = time.strftime('%Y-%m-%d %H-%M-%S',timestr)
print(image_url,video_url,video_title,video_play,video_date)
def run(self):
for i in range(1,3):
html = self.get_page(i)
self.parse_page(html)
def main():
spider = Spider()
spider.run()
if __name__ == '__main__':
main()
代碼裡面有些解釋已經很清楚了,在這裡再次複習一下
re.sub()
這個函數傳入五個參數,前三個是必須傳入的 pattern,、repl、 string
- 第一個是表示的是正規表達式中模式字元串
- 第二個是要被替換的字元串
-
第三個是文本字元串
剩下兩個可選參數,一個是 count 一個是 flag 。
時間戳轉換成标準格式的時間
第一種方法
import time
timeStamp = 1581418600
timeArray = time.localtime(timeStamp)
otherStyleTime = time.strftime("%Y-%m-%d %H:%M:%S", timeArray)
print otherStyleTime
第二種方法
import time
import datetime
timeStamp = 1381419600
dateArray = datetime.datetime.utcfromtimestamp(timeStamp)
otherStyleTime = dateArray.strftime("%Y-%m-%d %H:%M:%S")
print otherStyleTime
綜上就是這次的全部内容,多加練習繼續加油!