
網易雲音樂
前幾天小編給大家分享了資料可視化分析,在文尾提及了網易雲音樂歌詞爬取,今天小編給大家分享網易雲音樂歌詞爬取方法。
本文的總體思路如下:
找到正确的URL,擷取源碼;
利用bs4解析源碼,擷取歌曲名和歌曲ID;
調用網易雲歌曲API,擷取歌詞;
将歌詞寫入檔案,并存入本地。
本文的目的是擷取網易雲音樂的歌詞,并将歌詞存入到本地檔案。整體的效果圖如下所示:
趙雷的歌曲
本文以民謠歌神趙雷為資料采集對象,專門采集他的歌曲歌詞,其他歌手的歌詞采集方式可以類推,下圖展示的是《成都》歌詞。
趙雷歌曲---《成都》
一般來說,網頁上顯示的URL就可以寫在程式中,運作程式之後就可以采集到我們想要的網頁源碼。But在網易雲音樂網站中,這條路行不通,因為網頁中的URL是個假URL,真實的URL中是沒有#号的。廢話不多說,直接上代碼。
擷取網頁源碼
本文利用requests、bs4、json和re子產品來采集網易雲音樂歌詞,記得在程式中添加headers和反盜鍊referer以模拟浏覽器,防止被網站拒絕通路。這裡的get_html方法專門用于擷取源碼,通常我們也要做異常處理,未雨綢缪。
擷取到網頁源碼之後,分析源碼,發現歌曲的名字和ID藏的很深,縱裡尋她千百度,發現她在源碼的294行,藏在<ul class="f-hide">标簽下,如下圖所示:
歌曲名和ID存在的位置
接下來我們利用美麗的湯來擷取目标資訊,直接上代碼,如下圖:
擷取歌曲名和ID
此處要注意擷取ID的時候需要對link進行切片處理,得到的數字便是歌曲的ID;另外,歌曲名是通過get_text()方法擷取到的,最後利用zip函數将歌曲名和ID一一對應并進行傳回。
得到ID之後便可以進入到内頁擷取歌詞了,但是URL還是不給力,如下圖:
歌詞的URL
雖然我們可以明白的看到網頁上的白紙黑字呈現的歌詞資訊,但是我們在該URL下卻無法擷取到歌詞資訊。小編通過抓包,找到了歌詞的URL,發現其是POST請求還有一大堆看不懂的data,總之這個URL是不能為我們效力。那該點解呢?
莫慌,小編找到了網易雲音樂的API,隻要把歌曲的ID放在API連結上便可以擷取到歌詞了,代碼如下:
調用網易雲API并解析歌詞
在API中歌詞資訊是以json格式加載的,是以需要利用json将其進行序列化解析出來,并配合正規表達式進行清洗歌詞,如果不用正規表達式進行清洗的話,得到原始的資料如下所示(此處以趙雷的歌曲《成都》為例):
原始資料
很明顯歌詞前面有歌詞呈現的時間,對于我們來說其屬于雜質資訊,是以需要利用正規表達式進行比對。誠然,正規表達式并不是唯一的方法,小夥伴們也可以采取切片的方式或者其他方法進行資料清洗,在此就不贅述了。
得到歌詞之後便将其寫入到檔案中去,并存入到本地檔案中,代碼如下:
寫入檔案和程式主體部分
現在隻要我們運作程式,輸入歌手的ID之後,程式将自動把該歌手的所唱歌曲的歌詞抓取下來,并存到本地中。如本例中趙雷的ID是6731,輸入數字6731之後,趙雷的歌詞将會被抓取到,如下圖所示:
程式運作結果
之後我們就可以在腳本程式的同一目錄下找到生成的歌詞文本,歌詞就被順利的爬取下來了。
相信大家對網易雲歌詞爬取已經有了一定的認識了,不過easier said than down,小編建議大家動手親自敲一下代碼,在實踐中你會學的更快,學的更多的。
這篇文章教會大家如何采集網易雲歌詞,那網易雲歌曲如何采集呢?且聽小編下回分解~~~
為了給大家建立一個良好的Python學習環境,小編為大家建立了一個Python學習交流扣扣群,181125776,進群的驗證碼是:小王子,歡迎大家的加入~~
歡迎拍磚,_祝大家周末愉快_