天天看點

嘗試使用Node爬取頁面内容

前情概要

由于我主職是Java開發,是以在之前開發的菜單小程式中使用springboot+jsoup實作了菜單資料的爬取,但是這樣上線的小程式就必須依賴于我自己的伺服器,萬一哪天我囊中羞澀不續費我的小伺服器了那不是小程式也終結了?是以我選擇使用微信小程式的雲開發重構它,這樣可以讓它一直運作着,畢竟免費的限額以我這個小程式還不至于超出去的,但是雲開發使用的是node,是以經過查資料和寫demo做了一個簡單的測試分享出來。希望對大家有幫助。

正式介紹

我采用的是node+cheerio,cheerio主要就是用來進行解析html,起始它和jsoup的使用方法類似,都是類似jQuery的樣式選擇器文法,是以使用起來很友善。

代碼位址:https://gitee.com/hlovez/node-reptile.git

拉取代碼後啟動程式

git clone https://gitee.com/hlovez/node-reptile.git
           
cd node-reptile
           
npm start
           

運作demo後通路http://localhost:3000後會出現一個簡單的頁面共大家測試效果,如下圖:

嘗試使用Node爬取頁面内容

我這裡提供了5個測試接口:

  • 測試接口
  • 擷取每日三餐接口
  • 擷取首頁不同類型推薦清單
  • 查詢菜單接口
  • 查詢指定菜單詳情接口

具體每個接口可點選超連結檢視内容,效果如下:

嘗試使用Node爬取頁面内容

具體使用方法可以檢視

index.js

這個檔案裡的内容。爬取其他資料也是類似這樣的邏輯。

https://gitee.com/hlovez/node-reptile.git

繼續閱讀