Node爬蟲實踐

2019-07-04 14:16:39

爬蟲的原理很好了解，就是在服務端請求另一個伺服器的資源，前端有跨域問題，而服務端沒有，這是天然優勢。掌握node的前端可以為所欲為了。

Node爬蟲實踐

1 首先，根據請求資源的協定選擇合适的子產品，比如csdn是https協定，就用https的方法取請求，之前沒有注意到這個問題。

2 用get方法請求需要抓去内容的網頁位址，試過用request方法，沒有反應。

3 用cheerio子產品查找dom元素，抓取需要的内容。cheerio是服務端的dom操作工具，以jquery為核心。

4 把圖檔的絕對位址改成本地路徑，前端頁面無法直接通路跨域受保護圖檔。

5 最後一步，也是最重要的一步：把圖檔儲存在本地檔案夾。試過fs.readFile 和fs.writeFile，儲存下來的圖檔受損打不開；試過直接get請求，傳回的圖檔都是0位元組。正确的方法是用request方法，至于為什麼？我也不清楚啊。可能是binary二進制的優勢，畢竟再怎麼僞裝，所有資料本質還是二進制吧。

到此為止，爬蟲的功能就結束了。

Node爬蟲實踐

Node爬蟲實踐

繼續閱讀

Python漫畫爬蟲開源 66漫畫 AJAX，包含資料庫連接配接，圖檔下載下傳處理

requests子產品進行人人網模拟登陸

Python image.show() 出錯FSPathMakeRef(/Applications/Preview.app) failed with error -43

2023爬蟲學習筆記 -- 多線程操作

M團店鋪評價采集不到問題問題展示：解決方案：

Python爬蟲學習（1）

Python爬蟲學習進階

Python爬蟲（入門+進階）學習筆記 1-2 初識Python爬蟲

Python進階爬蟲——Class1：認識爬蟲

python爬蟲學習筆記-1

python學習之urllib使用小結

NOIp模拟題之肮髒的牧師（桶排序）

一篇文章教你如何在一個月内學會爬取大規模資料

npm start 啟動和webstorm中的綠色箭頭啟動node服務導緻的差異

Pyhton爬蟲實戰 - 抓取BOSS直聘職位描述和資料清洗Pyhton爬蟲實戰 - 抓取BOSS直聘職位描述和資料清洗

sort()函數到底是怎樣進行數字排序的