天天看点

今天进一步验证通过cusor自动化编写网页爬虫程序。我在头条写了很多文章,个人希望将这些文章抓取后每个网页生成一个独立的

作者:人月聊IT

今天进一步验证通过cusor自动化编写网页爬虫程序。

我在头条写了很多文章,个人希望将这些文章抓取后每个网页生成一个独立的pdf文件归档到本地作为知识库保存,该问题cursor完全胜任。

给cursor的prompt如下:

帮我写一个网页爬虫程序,获取这个链接头条日更写作1年整,个人原创文章整理和总结 的网页内容,抓取<div class="main">内容里面所有网页超链接,然后访问每一个超链接网页内容,将每一个访问到的超链接内容都单独生成为一个独立的pdf文件。具体pdf的文件名为该网页<title>的内容进行命名,pdf文件的内容为抓取<div class="main">里面的内容包括图片信息。

生产的python一开始运行有问题,虽然增加了反爬虫的进一步说明还是无法抓取到内容。后面手工修改了request header,增加了cookie的进一步内容后可以成功抓取。

其次抓取到的二级 href连接地址需要进一步做小转化处理。

虽然有些小修改最终程序才运行成功,但是cursor至少可以解决90%的问题。日常办公自动化,运维自动化,爬虫抓取完全胜任。

今天进一步验证通过cusor自动化编写网页爬虫程序。我在头条写了很多文章,个人希望将这些文章抓取后每个网页生成一个独立的
今天进一步验证通过cusor自动化编写网页爬虫程序。我在头条写了很多文章,个人希望将这些文章抓取后每个网页生成一个独立的
今天进一步验证通过cusor自动化编写网页爬虫程序。我在头条写了很多文章,个人希望将这些文章抓取后每个网页生成一个独立的

继续阅读