天天看点

dede文章采集管理php,CMS自带采集体验系列之DedeCMS v5.7

DedeCMS基于PHP+MySQL的技术开发,支持多种服务器平台,从2004年开始发布第一个版本开始,至今已经发布了五个大版本。DedeCMS以简单、健壮、灵活、开源几大特点占领了国内CMS的大部份市场,目前已经有超过35万个站点正在使用DedeCMS或基于DedeCMS核心开发,产品安装量达到95万。今天小编就带大家来体验一下DedeCMS v5.7的自带采集。

同样,织梦CMS内置了普通文章、图片集、软件等内容模型,我们来测试常用了文章和图片两个模型。为了能更好地与其他CMS做比较,我们的采集目标网站同上一期CMS自带采集体验系列之PHPCMS V9一样。

1、织梦CMS文章采集

新建一个文章采集节点,后台——采集——采集节点管理——增加新节点,选择内容模型为普通文章。

dede文章采集管理php,CMS自带采集体验系列之DedeCMS v5.7
dede文章采集管理php,CMS自带采集体验系列之DedeCMS v5.7

设置节点基本信息。目标源码同上篇文章所说,通过查看目标网站源代码后设置,区域匹配模式默认字符串,只有在字符串无法确定区域的时候才用正则表达式,不过一般都用不上。最后就是织梦cms采集的特点之一防盗链模式,如果目标网站有防盗链功能则开启次功能可以成功采集,但是会降低采集速度。次测试目标网站没防盗链功能,所以不开启。

dede文章采集管理php,CMS自带采集体验系列之DedeCMS v5.7

列表网站获取规则。同上篇文章分析,列表网址是有规律的可批量生成。这里要说下dedecms的强大之处,不仅获取列表网址的方式能灵活组合,而且如果目标网站整站使用的都是同一个模板,就可以启用“多栏目通配(#)”功能,通过设置后一个采集规则就可以采集整站并发布不同栏目了,而不需要一个栏目对应一个规则。(此功能小编会另外单独写一篇教程)

dede文章采集管理php,CMS自带采集体验系列之DedeCMS v5.7

文章网址匹配规则。查看目标列表页源代码,设置要采集文章网址区域的开始和结束的html,接下来又是dedecms特点之一,如果采集网址页面链接有图片可直接设置采集为缩略图,非常方便。对区域网址进行再次筛选功能也有特色,除支持正则表达式外还声明了“必须包含”和“不能包含”的优先级,本篇体验目标站无干扰网址,所以留空。

dede文章采集管理php,CMS自带采集体验系列之DedeCMS v5.7

保存并测试,系统会应用前面的设置测试采集网址,完整无误后保存信息并进入下一步内容采集设置。

dede文章采集管理php,CMS自带采集体验系列之DedeCMS v5.7