天天看點

今天進一步驗證通過cusor自動化編寫網頁爬蟲程式。我在頭條寫了很多文章,個人希望将這些文章抓取後每個網頁生成一個獨立的

作者:人月聊IT

今天進一步驗證通過cusor自動化編寫網頁爬蟲程式。

我在頭條寫了很多文章,個人希望将這些文章抓取後每個網頁生成一個獨立的pdf檔案歸檔到本地作為知識庫儲存,該問題cursor完全勝任。

給cursor的prompt如下:

幫我寫一個網頁爬蟲程式,擷取這個連結頭條日更寫作1年整,個人原創文章整理和總結 的網頁内容,抓取<div class="main">内容裡面所有網頁超連結,然後通路每一個超連結網頁内容,将每一個通路到的超連結内容都單獨生成為一個獨立的pdf檔案。具體pdf的檔案名為該網頁<title>的内容進行命名,pdf檔案的内容為抓取<div class="main">裡面的内容包括圖檔資訊。

生産的python一開始運作有問題,雖然增加了反爬蟲的進一步說明還是無法抓取到内容。後面手工修改了request header,增加了cookie的進一步内容後可以成功抓取。

其次抓取到的二級 href連接配接位址需要進一步做小轉化處理。

雖然有些小修改最終程式才運作成功,但是cursor至少可以解決90%的問題。日常辦公自動化,運維自動化,爬蟲抓取完全勝任。

今天進一步驗證通過cusor自動化編寫網頁爬蟲程式。我在頭條寫了很多文章,個人希望将這些文章抓取後每個網頁生成一個獨立的
今天進一步驗證通過cusor自動化編寫網頁爬蟲程式。我在頭條寫了很多文章,個人希望将這些文章抓取後每個網頁生成一個獨立的
今天進一步驗證通過cusor自動化編寫網頁爬蟲程式。我在頭條寫了很多文章,個人希望将這些文章抓取後每個網頁生成一個獨立的

繼續閱讀