看到标題,
啪的一下你就進來了吧!
如果有經常刷B站的小夥伴,肯定都知道B站鬼畜現在的頂流是誰?
印度:沒錯正是在下
那必須是當代大師渾元形意太極拳掌門人「馬保國」先生啊!
實話講,馬保國走進大家視野還是他5月份PK被人連續KO三次。
不過現在他在鬼畜區的主要素材卻是馬保國更早時候的一些視訊。
比如2020年一月份,右眼被蹭了一下的馬老師面帶微笑,為我們生動形象地講述了健身房裡的年輕人是如何不講武德,偷襲他的故事。
在視訊裡,他控訴踢館的年輕人 “ 不講武德 ” ,勸他 “ 耗子尾汁 ” 。可以作為B站入站題目,建議全文背誦。
B站這個小機靈鬼,甚至還給馬老師專門開了專欄,這為我們後續爬取資料也帶來了便利。
跟平時爬取B站不太一樣,在B站的馬保國專欄下,F12可以輕松找到接口。
https://api.bilibili.com/x/web-interface/web/channel/multiple/list?channel_id=3503796&sort_type=hot&page_size=30
解析JSON後我們需要的資料都可以獲得。
其中要提到一點,url中的
offest
從解析上一個url的json中擷取,如如下圖所示。
通過簡短的爬蟲代碼,
很快啊,很快就爬取了1.4萬條馬保國先生的視訊資料。
def get_data(url,headers):
data_m = pd.DataFrame(columns=['id','name','view_count','like_count','duration','author_name','author_id','bvid'])
html = requests.get(url,headers=headers).content
data = json.loads(html.decode('utf-8'))
offset = data['data']['offset']
print(offset)
for j in range(30):
data_m = data_m.append({'id':data['data']['list'][j]['id'],'name':data['data']['list'][j]['name'],
'view_count':data['data']['list'][j]['view_count'],'like_count':data['data']['list'][j]['like_count'],
'duration':data['data']['list'][j]['duration'],'author_name':data['data']['list'][j]['author_name'],
'author_id':data['data']['list'][j]['author_id'],'bvid':data['data']['list'][j]['bvid']},ignore_index=True)
return(offset,data_m)
1.4萬條資料預覽
我們先進行簡單的資料整理(播放量有的是萬為機關)後,将1.4萬個視訊按照播放量和點贊量制作了一個散點圖。
可以看到什麼才是“頂流”的話題,播放量幾百萬,點贊量幾十萬的相關視訊特别多。
按照播放量排序一下。
第一名就是今年一月份相聲泰鬥馬老師經典單口相聲!!!
那按照點贊量呢?
第一名是來自鬼畜up主的伊麗莎白鼠“武 林 高 手”!
而懂王與馬老師的關聯表現也很優秀!
其中幾個特效向的表現更是突出!
由于馬老師的語錄太過經典,我決定再補充爬一下它的彈幕。
# 繪制詞雲圖
stylecloud.gen_stylecloud(text=' '.join(text1),
collocations=False,
font_path=r'C:\Windows\Fonts\msyh.ttc',
icon_name='fas fa-play-circle',
size=653,
output_name='馬保國詞雲圖.png')
Image(filename='馬保國詞雲圖.png')
耗子尾汁真是門面擔當!
婷婷、英國大理石、塔門說也夾雜其中。
最後小五想推薦幾個視訊:
1、比較喜歡的人力VOCALOID
2、技術向的标杆,重點是小芃授人以漁!
3、最後觀察者網的視訊給大家呈現了一個更多元的,“三維立體渾元”的馬老師,甚至還發掘出了一些閃光點,而非一味的玩梗。