nodejs puppeteer生産實踐閉坑指南

2022-11-03 10:06:11

puppeteer是谷歌出的一個用于操控無頭浏覽器的架構，用來做爬蟲的頁面下載下傳子產品是非常不錯的選擇。

如果你寫的是針對某一網站的專用爬蟲，那麼完全使用nodejs實作就行，如果你寫的是爬取所有類型網站的通用爬蟲，那麼我建議你用一個熟悉的語言寫爬蟲引擎，Nodejs僅僅作為頁面下載下傳器。這和nodejs底層的實作和其特性有關。

使用方法

将puppeteer放到koa中，進而使得Node提供頁面下載下傳的接口，實作子產品間的松耦合

部署後的問題

記憶體問題

對于web2.0頁面下載下傳，每個頁面都會加載所有的内容，會導緻一個連接配接占用大量的記憶體。對此，可以針對記憶體問題做以下優化

減少支援的最大連接配接數
對頁面中png/jpg/gif等請求進行攔截中止
對puppeteer的Page限制跳轉最長等待時間，避免出現一直等待

socket hang up （連接配接被挂斷）

nodejs服務似乎會産生記憶體洩漏的問題（目前沒有找到原因），是以随着任務的增多，記憶體似乎會産生堆積，造成任務響應整體變慢。是以此時容易造成大部分頁面都有比較長的等待時間，此時也可以利用上文中的對puppeteer的Page限制跳轉最長等待時間，避免出現一直等待

。同時需要定期對頁面下載下傳子產品的任務做重新開機的操作。

由于不清楚nodejs和npm如何實作定期重新開機任務的功能，是以針對該服務，可以使用注冊該服務到systemctl中的方法，利用systemctl管理工具來管理服務的打開關閉。然後利用crontab來做定期重新開機的服務

具體實踐如下：

# the puppeteer of node service
[Unit]
Description=puppeteer

[Service]
TimeoutStartSec=180
TimeoutStopSec=30

# exec
ExecStart=/usr/bin/node bin/www
ExecStop=/usr/bin/pkill node
# log
StandardOutput=syslog
StandardError=syslog

1 */2 * * * /bin/systemctl restart puppeteer.service

nodejs puppeteer生産實踐閉坑指南

使用方法

部署後的問題

記憶體問題

socket hang up （連接配接被挂斷）

繼續閱讀

v2ex的簡單爬蟲

Python漫畫爬蟲開源 66漫畫 AJAX，包含資料庫連接配接，圖檔下載下傳處理

requests子產品進行人人網模拟登陸

Python image.show() 出錯FSPathMakeRef(/Applications/Preview.app) failed with error -43

2023爬蟲學習筆記 -- 多線程操作

M團店鋪評價采集不到問題問題展示：解決方案：

Python爬蟲學習（1）

Python爬蟲學習進階

Python爬蟲（入門+進階）學習筆記 1-2 初識Python爬蟲

Python進階爬蟲——Class1：認識爬蟲

python爬蟲學習筆記-1

python學習之urllib使用小結

NOIp模拟題之肮髒的牧師（桶排序）

一篇文章教你如何在一個月内學會爬取大規模資料

Pyhton爬蟲實戰 - 抓取BOSS直聘職位描述和資料清洗Pyhton爬蟲實戰 - 抓取BOSS直聘職位描述和資料清洗

sort()函數到底是怎樣進行數字排序的