天天看点

[Python学习] 简单爬取CSDN下载资源信息

        这是一篇python爬取csdn下载资源信息的例子,主要是通过urllib2获取csdn某个人所有资源的资源url、资源名称、下载次数、分数等信息;写这篇文章的原因是我想获取自己的资源所有的评论信息,但是由于评论采用js临时加载,所以这篇文章先简单介绍如何人工分析html页面爬取信息。

源代码

显示结果

        显示内容包括资源url、资源标题、资源积分、下载次数、资源类型和资源大小:

[Python学习] 简单爬取CSDN下载资源信息

        比如现在爬取郭霖大神的资源信息,其中页面链接如下:(共7页)

        简单修改python源代码url后,下载页面如下图所示:

[Python学习] 简单爬取CSDN下载资源信息

        运行结果如下图所示:

[Python学习] 简单爬取CSDN下载资源信息
[Python学习] 简单爬取CSDN下载资源信息

html分析

        首先,获取每列中的所有资源的url和标题,通过分析源代码。

        对应的html显示如下图所示:

[Python学习] 简单爬取CSDN下载资源信息

        然后通过url去到具体的资源获取我自己称为像消息盒的信息:

[Python学习] 简单爬取CSDN下载资源信息

        对应审查元素的信息如下所示,获取<span>0分</span>即可:

[Python学习] 简单爬取CSDN下载资源信息

        最后我想做的事获取评论信息,但是它是通过js实现的:

        显示的js页面部分如下:

最后希望文章对你有所帮助吧!下一篇准备分析下python如何获取js的评论信息,同时该篇文章可以给你提供一种简单的人工分析页面的例子;也可以获取某个人csdn资源下载多、分数高的给你挑选。基础知识,仅供参考~