做了个数据采集插件准备拿博客园练练手。想一下要采集什么数据,就从首页文章列表采集起到第10页就结束采集,然后在点击进去采集文章内容。
视频演示地址:https://www.bilibili.com/video/BV1HP4y157rR
九头虫网页数据采集插件 大家如果也想试下,那么可以点击进去下载。
九头虫网页数据采集插件 帮助文档
首页:文章标题、文章介绍、作者、作者头像、点赞数、评论数、发布时间
内容页:正文内容
按<code>F12</code>打开<code>开发者工具</code>里面看到文章列表<code>HTML代码结构</code>:

文章标题可以通过CSS选择器<code>.post-item-title</code>获取到;
文章地址可以通过CSS选择器<code>.post-item-title</code>获取到;
文章介绍可以通过CSS选择器<code>.post-item-summary</code>获取到;
作者可以通过CSS选择器<code>.post-item-author</code>获取到;
用户头像可以通过CSS选择器<code>img.avatar</code>获取到;
点赞数可以通过CSS选择器<code>.post-item-foot a.post-meta-item</code>获取到;
评论数可以通过CSS选择器<code>.post-item-foot a[class*=post-meta-item]:nth-of-type(3)</code>获取到;
浏览数可以通过CSS选择器<code>.post-item-foot a[class*=post-meta-item]:nth-of-type(4) span</code>获取到;
那么现在开始编写<code>采集规则</code>,采集规则保存之后,进入页面检验当前是否采集到数据了。
编写方式与上面的一样,这里就直接贴出代码了。
生成URL采集地址 帮助文档
在计划任务中,通过<code>动态URL采集地址</code>获取要采集的文章页面地址,获取完成之后插件就会自动去打开对应页面。只要打开页面,插件就会去匹配采集规则然后采集数据。