[Python学习] 简单爬取CSDN下载资源信息

2021-11-06 14:46:54

这是一篇python爬取csdn下载资源信息的例子，主要是通过urllib2获取csdn某个人所有资源的资源url、资源名称、下载次数、分数等信息；写这篇文章的原因是我想获取自己的资源所有的评论信息，但是由于评论采用js临时加载，所以这篇文章先简单介绍如何人工分析html页面爬取信息。

源代码

显示结果

显示内容包括资源url、资源标题、资源积分、下载次数、资源类型和资源大小：

比如现在爬取郭霖大神的资源信息，其中页面链接如下：(共7页)

简单修改python源代码url后，下载页面如下图所示：

运行结果如下图所示：

html分析

首先，获取每列中的所有资源的url和标题，通过分析源代码。

对应的html显示如下图所示：

然后通过url去到具体的资源获取我自己称为像消息盒的信息：

对应审查元素的信息如下所示，获取<span>0分</span>即可：

最后我想做的事获取评论信息，但是它是通过js实现的：

显示的js页面部分如下：

最后希望文章对你有所帮助吧！下一篇准备分析下python如何获取js的评论信息，同时该篇文章可以给你提供一种简单的人工分析页面的例子；也可以获取某个人csdn资源下载多、分数高的给你挑选。基础知识，仅供参考~

继续阅读