天天看點

puppeteer在mac和ubuntu上的安裝使用

puppeteer已經出來很長一段時間了,這兩天閑着沒事玩了下爬蟲,整體體驗不錯。這裡主要是介紹安裝方法,因為遇到了一些坑

在安裝puppeteer包時,由于其依賴了chromium,是以包的體積很大,下載下傳過程較慢。可以通過下面的指令修改包的源位址,再安裝時就會快很多

也可以在使用者檔案夾下找到​<code>​.npmrc​</code>​檔案,添加​<code>​uppeteer_download_host=https://npm.taobao.org/mirrors​</code>​,然後再執行​<code>​npm install​</code>​

上述方法的問題是,每次建立項目時都要安裝下puppeteer,很占硬碟空間。解決方法是從chromium官網先下載下傳一個安裝包,解壓後把它放到一個目錄下,然後設定executablePath選項,指向chromium

下面是一個簡單示例

在伺服器端安裝有些麻煩,官方給出了安裝時的注意注意事項,​​移步至此​​。我用的伺服器是Ubuntu,下面是安裝步驟

首先要安裝下面這些依賴包

然後配置args選項為黑盒模式

完成上面的操作就可以正常啟動puppeteer了

​​官方文檔​​

從零開始開發一個Node互動式指令行應用

爬蟲利器 Puppeteer 實戰

本來是爬豆瓣圖書練手的,無奈爬了一萬本IP被封了,好在過了一天又解封了。puppeteer是支援設定代理的,通過配置​<code>​args: ['--proxy-server=http://127.0.0.1:3000']​</code>​,可以以代理身份發送請求,我試了下免費的代理都很慢,不過既然是為了玩,慢也無所謂了。