「低代码爬虫系列六」Automa实现批量百度搜索的爬虫

作者：一禾的认知觉醒之路 2022-11-23 16:18:00

Automa是一款开源的图形化&低代码爬虫工具，让用户在不懂代码的情况下，通过拖拽方式做一些实用的爬虫。例如爬取微博信息、批量搜索百度、解除某些网站不可复制限制、下载抖音视频、免费看VIP视频等等。

本系列教程先介绍它的基本使用，然后基于它做一些有趣的项目实践（包括但不限于上述所举的例子）。前面文章我们介绍了制作天气预报爬虫、微博爬虫、解除网页不可复制限制等。

本文是该系列的第六篇文章，用Automa实现批量百度搜索爬虫。

一、问题导入

批量百度搜索，指的是将一批检索词扔到百度搜索引擎中，自动化获取对应的搜索结果。

有朋友问，这个功能的运用场景有哪些呢？

例如：你可能不知道这些问题的答案：x5是什么、t3是什么、长江大桥在哪里。那么你就可通过搜索引擎来获取答案。

二、功能实现

先看下整个工作流的实现。大致的逻辑是：遍历每个搜索词，然后模拟输入框输入，模拟按下回车键进行百度搜索，获取对应的自然结果标题和URL，最后导出数据。

我们介绍下这条工作流的各个组件。

1、触发器标识整条工作流的开始。

2、活动标签页

该组件指定在当前浏览器活动页面上进行操作，因此不需要URL参数。这里默认活动页是百度搜索页面。

3、循环数据

将我们要搜索的所有query都放在这个循环数据组件中，如下所示：

4、表单

这个组件的功能是模拟输入表单。在这个工作流中，我们用它来模拟百度输入框的输入，参数如下。有朋友问，css选择器里的input#kw参数是怎么获取的？其实，如果对网页知识不熟悉，可以通过系列一文章中使用的录制功能来自动获取。

5、按键

这个组件的功能是模拟键盘按键。在这里，我们需要在输入对应搜索词后，按下回车进行搜索。

6、元素存在

该组件用于判断页面中是否有对应元素。我们用这个组件判断搜索结果是否已经有了。

7、模块组

该组件的功能是将多个组件组成一个大组件。在这个工作流中，我们利用获取文本组件来得到自然结果标题，利用属性值组件来获取对应的URL。具体参数如下，注意勾选多选，否则只能获得第一个标题和URL。

8、循环断点和导出数据

这两个组件在之前文章中已多次使用，这里不再赘述。

通过上述操作，我们实现了批量百度搜索的爬虫。最后，我们来看下整个工作流的运行。

（如果需要完整例子项目文件、或者对步骤还存在疑问的朋友，可以在评论区留言或者私信）

后面文章会做一些更复杂、更有趣的例子，敬请期待~

如果你有什么想做的爬虫，也可以在评论区留言哦~

「低代码爬虫系列六」Automa实现批量百度搜索的爬虫

一、问题导入

二、功能实现

继续阅读

苹果手机自带的Safari浏览器，太难用，决定改用Edge。在前些年，说到苹果手机上，最好用的的浏览器，必须是Safar

推广品牌难，拓展渠道难？如何通过互联网实现快速推广？大家好，我是启鲸科技。今天和大家分享如何通过互联网快速推广品牌和产品

百度搜索引擎SEO优化软件的作用。在如今数字化快速发展的时代，互联网已经成为人们获取信息的主要途径。而在这个信息泛滥的世

如何通过优化文章标题，提升网站seo收录效果。随着互联网时代的到来，网络竞争日益激烈。因此，为了提升网站的曝光度和可见性

这么懵逼的剧情，除了华为主演还能有谁？AI大模型刚出，谷歌、微软、百度摸牌还没摸上手，可回头一看，华为特么提前胡牌了！确

最近applestore上架了百度的文心一言，简单体验了下，感觉进步的空间还有很大，有些问题的回答其实就是百度搜索出来的

案例分享+操作步骤：H5营销活动制作。H5营销活动怎么做？流量时代房地产大亨怎么做到成交率翻倍？某海地产上线直营购房小程

孩子的三升四暑假作业：数学：一、巩固作业1.完成《暑期生活》2.0-9的数字卡片中任意拿出4张，每天编出十道三位数除以一

我使用的是熊丁宁牌的3D刷脸智能锁。我的名字是熊丁宁，它比熊邓中国说少了一半，希望你能帮我分享这个稳赢的产品。这款刷脸智

添加验证网站之CNAME验证操作-百度搜索资源平台

海外抖音云控抢金币宝箱TikTok云控是一种通过自动化程序进行批量操作的控制方式，用于在TikTok平台上进行一系列任务

#Python新征程31#操控网页打开，selenium4爬取百度搜索数据

百度企业百家号注册流程来啦~1：注册账号：注册申请入口:百度搜索“百家号”点击进入官网2：注册-登录：注册/登录百家号-

百度搜索引擎已死，百度这样回答算是SEO的出路吗

企业可以通过以下几种途径在百度网站上进行推广：·1.搜索引擎优化(SEO)：通过优化网站内容和结构，提高在百度搜索结果中

python模拟百度搜索