今天进一步验证通过cusor自动化编写网页爬虫程序。我在头条写了很多文章，个人希望将这些文章抓取后每个网页生成一个独立的

作者：人月聊IT 2023-03-24 16:38:00

今天进一步验证通过cusor自动化编写网页爬虫程序。

我在头条写了很多文章，个人希望将这些文章抓取后每个网页生成一个独立的pdf文件归档到本地作为知识库保存，该问题cursor完全胜任。

给cursor的prompt如下：

帮我写一个网页爬虫程序，获取这个链接头条日更写作1年整，个人原创文章整理和总结的网页内容，抓取<div class="main">内容里面所有网页超链接，然后访问每一个超链接网页内容，将每一个访问到的超链接内容都单独生成为一个独立的pdf文件。具体pdf的文件名为该网页<title>的内容进行命名，pdf文件的内容为抓取<div class="main">里面的内容包括图片信息。

生产的python一开始运行有问题，虽然增加了反爬虫的进一步说明还是无法抓取到内容。后面手工修改了request header，增加了cookie的进一步内容后可以成功抓取。

其次抓取到的二级 href连接地址需要进一步做小转化处理。

虽然有些小修改最终程序才运行成功，但是cursor至少可以解决90%的问题。日常办公自动化，运维自动化，爬虫抓取完全胜任。

今天进一步验证通过cusor自动化编写网页爬虫程序。我在头条写了很多文章，个人希望将这些文章抓取后每个网页生成一个独立的

今天进一步验证通过cusor自动化编写网页爬虫程序。我在头条写了很多文章，个人希望将这些文章抓取后每个网页生成一个独立的

继续阅读

一文看懂RPA的技术架构及原理

RPA实施过程中可能会遇到的14个坑

网页爬虫web（网页爬虫webscraper）

研究前沿：NatureElectronics纳米机电谐振器NEMS|超晶格许多电子系统依赖于微机电系统和纳机电系统谐振器

Ansible 源码解析: shell模块的实现方式

网页内容提取难？ClickHouse一招快速搞定

运维思索：如何纳管服务器实现统一登录

运维思索：基础设施自动化落地

运维思索：Cobbler无人值守实现操作系统安装规范化

【谷歌正在利用大模型改进安卓手机的谷歌语音助手功能】AI奇点网8月1日报道丨今年的谷歌I/O大会上，该公司几乎全场高唱A

GoogleChrome正式删除新托盘UI的下载栏多年来，您下载的文件都会显示在Chrome底部的栏中，但谷歌现在正在更

使用 Python3 中的 urllib 库进行网络请求和解析网页内容(43)

超简单的方法完整保留原有所有样式拆分Excel表

Zoookeeper安装部署(单机版)

【管理沟通】：完善公司内部信息沟通平台。在完善企业内部信息沟通体系的基础上，根据员工的个性、管理风格、组织结构等因素，建

puppet运维自动化之puppet基础知识介绍运维自动化之puppet基础知识介绍