這是一篇python爬取csdn下載下傳資源資訊的例子,主要是通過urllib2擷取csdn某個人所有資源的資源url、資源名稱、下載下傳次數、分數等資訊;寫這篇文章的原因是我想擷取自己的資源所有的評論資訊,但是由于評論采用js臨時加載,是以這篇文章先簡單介紹如何人工分析html頁面爬取資訊。
源代碼
顯示結果
顯示内容包括資源url、資源标題、資源積分、下載下傳次數、資源類型和資源大小:

比如現在爬取郭霖大神的資源資訊,其中頁面連結如下:(共7頁)
簡單修改python源代碼url後,下載下傳頁面如下圖所示:
運作結果如下圖所示:
html分析
首先,擷取每列中的所有資源的url和标題,通過分析源代碼。
對應的html顯示如下圖所示:
然後通過url去到具體的資源擷取我自己稱為像消息盒的資訊:
對應審查元素的資訊如下所示,擷取<span>0分</span>即可:
最後我想做的事擷取評論資訊,但是它是通過js實作的:
顯示的js頁面部分如下:
最後希望文章對你有所幫助吧!下一篇準備分析下python如何擷取js的評論資訊,同時該篇文章可以給你提供一種簡單的人工分析頁面的例子;也可以擷取某個人csdn資源下載下傳多、分數高的給你挑選。基礎知識,僅供參考~