今天進一步驗證通過cusor自動化編寫網頁爬蟲程式。我在頭條寫了很多文章，個人希望将這些文章抓取後每個網頁生成一個獨立的

作者：人月聊IT 2023-03-24 16:38:00

今天進一步驗證通過cusor自動化編寫網頁爬蟲程式。

我在頭條寫了很多文章，個人希望将這些文章抓取後每個網頁生成一個獨立的pdf檔案歸檔到本地作為知識庫儲存，該問題cursor完全勝任。

給cursor的prompt如下：

幫我寫一個網頁爬蟲程式，擷取這個連結頭條日更寫作1年整，個人原創文章整理和總結的網頁内容，抓取<div class="main">内容裡面所有網頁超連結，然後通路每一個超連結網頁内容，将每一個通路到的超連結内容都單獨生成為一個獨立的pdf檔案。具體pdf的檔案名為該網頁<title>的内容進行命名，pdf檔案的内容為抓取<div class="main">裡面的内容包括圖檔資訊。

生産的python一開始運作有問題，雖然增加了反爬蟲的進一步說明還是無法抓取到内容。後面手工修改了request header，增加了cookie的進一步内容後可以成功抓取。

其次抓取到的二級 href連接配接位址需要進一步做小轉化處理。

雖然有些小修改最終程式才運作成功，但是cursor至少可以解決90%的問題。日常辦公自動化，運維自動化，爬蟲抓取完全勝任。

今天進一步驗證通過cusor自動化編寫網頁爬蟲程式。我在頭條寫了很多文章，個人希望将這些文章抓取後每個網頁生成一個獨立的

今天進一步驗證通過cusor自動化編寫網頁爬蟲程式。我在頭條寫了很多文章，個人希望将這些文章抓取後每個網頁生成一個獨立的

繼續閱讀

一文看懂RPA的技術架構及原理

RPA實施過程中可能會遇到的14個坑

網頁爬蟲web（網頁爬蟲webscraper）

研究前沿：NatureElectronics納米機電諧振器NEMS|超晶格許多電子系統依賴于微機電系統和納機電系統諧振器

Ansible 源碼解析: shell子產品的實作方式

網頁内容提取難？ClickHouse一招快速搞定

運維思索：如何納管伺服器實作統一登入

運維思索：基礎設施自動化落地

運維思索：Cobbler無人值守實作作業系統安裝規範化

【谷歌正在利用大模型改進安卓手機的谷歌語音助手功能】AI奇點網8月1日報道丨今年的谷歌I/O大會上，該公司幾乎全場高唱A

GoogleChrome正式删除新托盤UI的下載下傳欄多年來，您下載下傳的檔案都會顯示在Chrome底部的欄中，但谷歌現在正在更

使用 Python3 中的 urllib 庫進行網絡請求和解析網頁内容(43)

超簡單的方法完整保留原有所有樣式拆分Excel表

Zoookeeper安裝部署(單機版)

【管理溝通】：完善公司内部資訊溝通平台。在完善企業内部資訊溝通體系的基礎上，根據員工的個性、管理風格、組織結構等因素，建

puppet運維自動化之puppet基礎知識介紹運維自動化之puppet基礎知識介紹