[Python學習] 簡單爬取CSDN下載下傳資源資訊

2021-11-06 14:46:54

這是一篇python爬取csdn下載下傳資源資訊的例子，主要是通過urllib2擷取csdn某個人所有資源的資源url、資源名稱、下載下傳次數、分數等資訊；寫這篇文章的原因是我想擷取自己的資源所有的評論資訊，但是由于評論采用js臨時加載，是以這篇文章先簡單介紹如何人工分析html頁面爬取資訊。

源代碼

顯示結果

顯示内容包括資源url、資源标題、資源積分、下載下傳次數、資源類型和資源大小：

比如現在爬取郭霖大神的資源資訊，其中頁面連結如下：(共7頁)

簡單修改python源代碼url後，下載下傳頁面如下圖所示：

運作結果如下圖所示：

html分析

首先，擷取每列中的所有資源的url和标題，通過分析源代碼。

對應的html顯示如下圖所示：

然後通過url去到具體的資源擷取我自己稱為像消息盒的資訊：

對應審查元素的資訊如下所示，擷取<span>0分</span>即可：

最後我想做的事擷取評論資訊，但是它是通過js實作的：

顯示的js頁面部分如下：

最後希望文章對你有所幫助吧！下一篇準備分析下python如何擷取js的評論資訊，同時該篇文章可以給你提供一種簡單的人工分析頁面的例子；也可以擷取某個人csdn資源下載下傳多、分數高的給你挑選。基礎知識，僅供參考~

繼續閱讀