puppeteer已经出来很长一段时间了,这两天闲着没事玩了下爬虫,整体体验不错。这里主要是介绍安装方法,因为遇到了一些坑
在安装puppeteer包时,由于其依赖了chromium,因此包的体积很大,下载过程较慢。可以通过下面的命令修改包的源地址,再安装时就会快很多
也可以在用户文件夹下找到<code>.npmrc</code>文件,添加<code>uppeteer_download_host=https://npm.taobao.org/mirrors</code>,然后再执行<code>npm install</code>
上述方法的问题是,每次新建项目时都要安装下puppeteer,很占硬盘空间。解决方法是从chromium官网先下载一个安装包,解压后把它放到一个目录下,然后设置executablePath选项,指向chromium
下面是一个简单示例
在服务器端安装有些麻烦,官方给出了安装时的注意注意事项,移步至此。我用的服务器是Ubuntu,下面是安装步骤
首先要安装下面这些依赖包
然后配置args选项为黑盒模式
完成上面的操作就可以正常启动puppeteer了
官方文档
从零开始开发一个Node交互式命令行应用
爬虫利器 Puppeteer 实战
本来是爬豆瓣图书练手的,无奈爬了一万本IP被封了,好在过了一天又解封了。puppeteer是支持设置代理的,通过配置<code>args: ['--proxy-server=http://127.0.0.1:3000']</code>,可以以代理身份发送请求,我试了下免费的代理都很慢,不过既然是为了玩,慢也无所谓了。