puppeteer已經出來很長一段時間了,這兩天閑着沒事玩了下爬蟲,整體體驗不錯。這裡主要是介紹安裝方法,因為遇到了一些坑
在安裝puppeteer包時,由于其依賴了chromium,是以包的體積很大,下載下傳過程較慢。可以通過下面的指令修改包的源位址,再安裝時就會快很多
也可以在使用者檔案夾下找到<code>.npmrc</code>檔案,添加<code>uppeteer_download_host=https://npm.taobao.org/mirrors</code>,然後再執行<code>npm install</code>
上述方法的問題是,每次建立項目時都要安裝下puppeteer,很占硬碟空間。解決方法是從chromium官網先下載下傳一個安裝包,解壓後把它放到一個目錄下,然後設定executablePath選項,指向chromium
下面是一個簡單示例
在伺服器端安裝有些麻煩,官方給出了安裝時的注意注意事項,移步至此。我用的伺服器是Ubuntu,下面是安裝步驟
首先要安裝下面這些依賴包
然後配置args選項為黑盒模式
完成上面的操作就可以正常啟動puppeteer了
官方文檔
從零開始開發一個Node互動式指令行應用
爬蟲利器 Puppeteer 實戰
本來是爬豆瓣圖書練手的,無奈爬了一萬本IP被封了,好在過了一天又解封了。puppeteer是支援設定代理的,通過配置<code>args: ['--proxy-server=http://127.0.0.1:3000']</code>,可以以代理身份發送請求,我試了下免費的代理都很慢,不過既然是為了玩,慢也無所謂了。