抖音上超好聽的神曲音樂，Python教你一次性下載下傳

不知道什麼時候開始，中國出現了南抖音、北快手的互文格局（東市買駿馬，西市買鞍鞯…）。剛才提到了，之前比較喜歡刷抖音，對于我這種佛系程式猿，看網上這些整容妹子基本一個樣。喜歡抖音主要是兩個初衷，學做菜聽音樂。朋友之前常說，人家抖音看妹子看的樂呵呵，你看人家做菜也能津津有味，一個人在那兒傻笑…民以食為天，我看到色香味俱全的菜，做的那麼好吃的樂呵樂呵還不行麼。

抖音捧紅了很多人，也讓很多本不怎麼讓大家熟知的歌曲、BGM，經過翻唱、混剪與視訊搭配，進而傳播大街小巷。什麼“若不是你，突然闖進我心裡…”亦或者“也許未來遙遠在光年之外，我願守候未知裡為你等待…”，成了大家閑時在嘴邊哼唱的調調。那麼，有沒有想過将這些好聽的剪輯批量下載下傳下來呢？

Python 連結抖音

python下載下傳抖音内容的文章網上有一些，但都比較麻煩，需要通過adb連接配接安卓手機後，模拟操作。我這麼懶，這種事兒玩不來…那麼，該如何擷取抖音内容呢？網上搜了下大概有兩種方式，一個是浏覽器插件快抖，另外一個是我今天要說的抖音網頁版。其實這兩者差别不是很大，都是先将抖音内容下載下傳至伺服器後，通過開發簡單網站配置域名後，讓大家通路。讓我們來看看抖音網頁版：

哎喲吼，居然看到了昨天爬蟲的“喬奶奶”…當然今天的重點不是視訊，而是下載下傳它全站所有的音樂！

爬蟲實作分析

熱歌榜内容

大家先開看看這個抖音熱歌榜歌曲，每頁20首歌曲，一個55頁。但細不細心大家都能發現，很多歌曲存在重複的問題。是以，等下爬蟲的時候，我們需要先準備一個music_list,用來識别這首歌曲是否已經下載下傳過了…

網頁解析

網頁比較簡單，一個div中包裹了一個ul>li*20,我們是不是該這樣擷取：

soup.find('div',{"class":"pull-left"}).find('ul').findAll('a')

如果你說是，那麼一定沒有好好看我前天整理的文章通過哪吒豆瓣影評，帶你分析python爬蟲快速入門:https://www.jianshu.com/p/ae38f7607902，我在文章中專門提到了一個小技巧，通過使用attr的屬性進行快速解析，那麼最快速的擷取方式是：

soup.findAll('a', attrs={'onclick': True})

我們隻需要擷取所有的a标簽，切這些标簽中包含onclick這個屬性即可。

巧用eval

我們解析到的内容通過attr[‘onclick’],可以得到他的屬性open1(‘夜’,’http://p9-dy.byteimg.com/obj/61a20007a98954b0831d)，如何能快速擷取歌曲名字和url呢？這裡我們需要用到一個eval的小技巧：

index = "open1('夜','http://p9-dy.byteimg.com/obj/61a20007a98954b0831d','')"
index[5:]
"('夜','http://p9-dy.byteimg.com/obj/61a20007a98954b0831d','')"
index_tuple = eval(index[5:])
print(index_tuple, type(index_tuple))
('夜', 'http://p9-dy.byteimg.com/obj/61a20007a98954b0831d', '') <class 'tuple'>
index_tuple[0]
'夜'
index_tuple[1]
'http://p9-dy.byteimg.com/obj/61a20007a98954b0831d'

ps:今天一個朋友說我寫代碼沒注釋，我這是現身說法的告訴你，如何能寫出讓别人壓根看不懂的代碼，就是不寫注釋啊，哈哈！其實，代碼我都在文章中一點一點的講解了，是以沒有寫，但秉承着害怕大佬們取關的心态，我還是把注釋加上吧…

代碼實作

總體來說實作比較簡單，全部代碼如下：

# -*- coding: utf-8 -*-
# @Author   : 王翔
# @JianShu  : 清風Python
# @Date     : 2019/7/31 23:25
# @Software : PyCharm
# @version  ：Python 3.7.3
# @File     : DouYinMusic.py

import os
import requests
from bs4 import BeautifulSoup
import threading
import time


class DouYinMusic:
    def __init__(self):
        self.music_list = []
        self.path = self.download_path()

    @staticmethod
    def download_path():
        """
        擷取代碼執行目錄，并在目錄下建立Music檔案夾
        :return Music檔案夾全路徑
        """
        base_dir = os.path.dirname(os.path.abspath(__file__))
        _path = os.path.join(base_dir, "Music")
        if not os.path.exists(_path):
            os.mkdir(_path)
        return _path

    def get_request(self, url):
        """
        封裝requests.get方法
        如果為網頁請求，傳回網頁内容
        否則，解析音樂位址，并傳回音樂二進制檔案
        :param url: 請求url（分網頁、音樂兩類）
        :return: 網頁内容 & 音樂二進制檔案
        """
        r = requests.get(url, timeout=5)
        if url.endswith('html'):
            return r.text
        else:
            return r.content

    def analysis_html(self, html):
        """
        根據擷取的網頁内容，解析音樂名稱、下載下傳位址
        調用音樂下載下傳方法
        :param html: 網頁内容
        """
        soup = BeautifulSoup(html, 'lxml')
        # 根據關鍵字onclick查找每個下載下傳位址
        for tag_a in soup.findAll('a', attrs={'onclick': True}):
            # 下載下傳格式'("name","link","")',通過eval将str轉化為tuple類型
            link_list = eval(tag_a['onclick'][5:])
            music_name, music_link = link_list[:2]
            # 因為存在部分重複音樂，故設定判斷下載下傳過的音樂跳過
            if music_name in self.music_list:
                continue
            self.music_list.append(music_name)
            t = threading.Thread(target=self.download_music, args=(music_name, music_link))
            time.sleep(0.5)
            t.start()

    def download_music(self, music_name, music_link):
        """
        解析音樂檔案,完成音樂下載下傳
        :param music_name: 音樂名稱
        :param music_link: 下載下傳位址
        """
        _full_name = os.path.join(self.path, music_name)
        with open(_full_name + '.mp3', 'wb') as f:
            f.write(self.get_request(music_link))
        print("抖音音樂：{} 下載下傳完成".format(music_name))

    def run(self):
        """
        主方法，用于批量生成url
        """
        for page in range(1,55):
            url = "http://douyin.bm8.com.cn/t_{}.html".format(page)
            html = self.get_request(url)
            self.analysis_html(html)


if __name__ == '__main__':
    main = DouYinMusic()
    main.run()

來讓我們看看效果吧：

網站是通過nginx負載均衡搭建的，有一些連結已經失效了。最終下載下傳了不重複的592首抖音音樂。

同樣的，大家喜歡可以按照這種方法，嘗試下載下傳一下網站的抖音視訊。

本文作者華為雲 | 清風Python

點選關注，第一時間了解華為雲新鮮技術~

抖音上超好聽的神曲音樂，Python教你一次性下載下傳

Python 連結抖音

爬蟲實作分析

代碼實作

繼續閱讀

無法解析的外部符号 wmain，該符号在函數 "void cdecl mainCRTStartupHelper(struct HINSTANCE *,unsigned short con......

TestLink導出用例轉換工具(XML2Excel)

YAML簡介和PyYAML安全操作YAML支援的類型YAML的優點：yaml的基本文法python操作

Small tricks

libsvm for python 安裝

學習軟體測試基礎測試第七天

Zeppelin 配置通路 REST APIApache Zeppelin Configuration REST API

【Torch】最簡潔logging使用指南

27. Remove Element(清單)題目代碼

sort()函數到底是怎樣進行數字排序的

Cloud Studio初體驗

使用 ctypes 進行 Python 和 C 的混合程式設計

【python】【資料處理】畫多元資料分布圖

【python】netconf協定對接管理裝置

「Python 網絡自動化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 網絡裝置

在python中建立excel并寫入