《精通Python网络爬虫：核心技术、框架与项目实战》——3.7　实例——metaseeker

本节书摘来自华章出版社《精通python网络爬虫：核心技术、框架与项目实战》一书中的第3章，第3.7节，作者韦　玮，更多章节内容可以访问云栖社区“华章计算机”公众号查看。

metaseeker是一款比较实用的网站数据采集程序，使用该采集程序，可以让大家比较快速、形象地了解爬虫的工作过程。所以在本节中，会以metaseeker为例，跟大家一起学习如何采集当当网的商品及价格信息，让大家对爬虫工作过程有一个形象地了解，为后续我们使用python开发爬虫打下基础。

《精通Python网络爬虫：核心技术、框架与项目实战》——3.7　实例——metaseeker

下载之后，我们只需要打开安装即可，安装好之后，打开该软件，会出现一个类似浏览器的界面，我们打开要爬取的网址（即刚才提到的当当网的图书商品页），单击“ms谋数台”，如图3-7所示。

打开后，会出现图3-8所示的界面。

此时，我们需要将刚才的商品页面网址复制到左上角的网址处，并按一下回车键，如图3-9所示。在加载了一会儿之后，软件的左下角处会出现“完成”字样，此时代表网页加载完成。

然后，我们需要在该界面的“工作台”中，创建命名主题，创建好命名主题后，需要单击“查重”按钮，看是否名称冲突，若名称冲突则需要换一个主题名字。如图3-10所示，创建了一个名为dangdangbookprice的主题名。

创建主题名之后，需要进行下一步操作，即创建规则。我们在创建规则的页面中，单击新建，便可以输入想创建的规则名称，该规则名称可以自己拟定，如图3-11所示，我们创建了一个名为“当当图书商品价格抓取”的规则名称。

创建好了该规则名称后，我们需要选定该规则名，然后右键，单击添加→包容，如图3-12所示。

随后，会出现如图3-13所示的界面，让我们填写被爬取内容的详细信息，此时，我们需要根据自己的需求规划好一共需要多少个包容，比如，在此我们需要爬取商品的名称和商品的价格，所以两个包容就够了。我们先创建第一个包容，即商品价格，输入对应名称，然后勾选好右边的“关键内容”。完成之后，可以单击保存，然后再次选中规则名，并右键添加第二个包容，即商品名称。

完成之后，会出现如图3-14所示界面。

随后，我们可以在该界面的浏览器窗口中，选择其中一个商品的名称，即以一个商品名为例，建立好对应的规则。单击后可能会出现如图3-15所示的提示。

如果出现图3-15中的提示，我们可以单击该界面左上角的文件→刷新网页结构，如图3-16所示，这样即可解决该问题。

解决该问题后，我们再次单击其中一个商品名，单击后，网页标签处自动定位到对应的元素中。如图3-17所示，我们单击了“幸存者”之后，在网页标签中自动定位到了对应的div中，将div展开，有一个“#text”的字样，选中该字样，可以看到，在工作台的文本内容中，出现了对应的商品名，此时代表商品名定位成功。

随后，我们选中对应的“#text”，然后右键，单击内容映射→商品名称，将该规则映射到对应的商品名称包容中，那么以后，便可以根据这个规则去爬取网页上的其他商品的名称了，如图3-18所示。

我们还需要指定价格的规则，此时我们在浏览器区域中，单击该商品对应的价格，然后，在网页标签处会进行自动定位，如图3-19所示，我们单击了对应的价格“9.09”之后，网页标签处，自动定位到了对应的i标签下，我们展开i标签，同样可以看得到一个“#text”，选中“#text”在工作台的文本内容中，会出现对应的价格信息，此时，代表定位成功。

然后，我们同样需要选中该标签，然后右击，将该标签映射到商品价格中，如图3-20所示。

标签规则映射好之后，我们返回工作台，然后单击测试，便可以看得到当前是否爬取该界面中的所有商品信息。如图3-21所示，返回工作台，并单击测试。

单击了测试后，在输出信息中，我们可以看得到，该输出信息包含了该界面中所有的商品名称和对应的商品价格，也就是说，我们成功采集了，如图3-22所示，由于界面空间有限，只展现了部分爬取信息。

如果我们要对该网站下其他网页中的商品信息都进行自动爬取，虽然也是可以的，但是需要设置对应的爬取规则。在这里，metaseeker的使用仅作为本书的一个实例，并不是本书的重点内容，所以，关于metaseeker的深入使用部分我们就不过多讲解了，对应的内容不难，有兴趣的读者可以查看相关资料。

我们讲该实例的目的是让大家对爬虫有一个形象的初步印象，方便后续深入学习爬虫开发。

《精通Python网络爬虫：核心技术、框架与项目实战》——3.7　实例——metaseeker

继续阅读

来自python的【条件控制/语句循环/break/continue/else/pass】一、条件控制二、语句循环

无法解析的外部符号 wmain，该符号在函数 "void cdecl mainCRTStartupHelper(struct HINSTANCE *,unsigned short con......

TestLink导出用例转换工具(XML2Excel)

YAML简介和PyYAML安全操作YAML支持的类型YAML的优点：yaml的基本语法python操作

Small tricks

libsvm for python 安装

学习软件测试基础测试第七天

Zeppelin 配置访问 REST APIApache Zeppelin Configuration REST API

【Torch】最简洁logging使用指南

27. Remove Element(列表)题目代码

Cloud Studio初体验

使用 ctypes 进行 Python 和 C 的混合编程

【python】【数据处理】画多维数据分布图

【python】netconf协议对接管理设备

「Python 网络自动化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 网络设备

在python中创建excel并写入

《精通Python网络爬虫：核心技术、框架与项目实战》——3.7 实例——metaseeker

继续阅读

《精通Python网络爬虫：核心技术、框架与项目实战》——3.7　实例——metaseeker