天天看點

[Python學習] 簡單爬取CSDN下載下傳資源資訊

        這是一篇python爬取csdn下載下傳資源資訊的例子,主要是通過urllib2擷取csdn某個人所有資源的資源url、資源名稱、下載下傳次數、分數等資訊;寫這篇文章的原因是我想擷取自己的資源所有的評論資訊,但是由于評論采用js臨時加載,是以這篇文章先簡單介紹如何人工分析html頁面爬取資訊。

源代碼

顯示結果

        顯示内容包括資源url、資源标題、資源積分、下載下傳次數、資源類型和資源大小:

[Python學習] 簡單爬取CSDN下載下傳資源資訊

        比如現在爬取郭霖大神的資源資訊,其中頁面連結如下:(共7頁)

        簡單修改python源代碼url後,下載下傳頁面如下圖所示:

[Python學習] 簡單爬取CSDN下載下傳資源資訊

        運作結果如下圖所示:

[Python學習] 簡單爬取CSDN下載下傳資源資訊
[Python學習] 簡單爬取CSDN下載下傳資源資訊

html分析

        首先,擷取每列中的所有資源的url和标題,通過分析源代碼。

        對應的html顯示如下圖所示:

[Python學習] 簡單爬取CSDN下載下傳資源資訊

        然後通過url去到具體的資源擷取我自己稱為像消息盒的資訊:

[Python學習] 簡單爬取CSDN下載下傳資源資訊

        對應審查元素的資訊如下所示,擷取<span>0分</span>即可:

[Python學習] 簡單爬取CSDN下載下傳資源資訊

        最後我想做的事擷取評論資訊,但是它是通過js實作的:

        顯示的js頁面部分如下:

最後希望文章對你有所幫助吧!下一篇準備分析下python如何擷取js的評論資訊,同時該篇文章可以給你提供一種簡單的人工分析頁面的例子;也可以擷取某個人csdn資源下載下傳多、分數高的給你挑選。基礎知識,僅供參考~