天天看点

puppeteer在mac和ubuntu上的安装使用

puppeteer已经出来很长一段时间了,这两天闲着没事玩了下爬虫,整体体验不错。这里主要是介绍安装方法,因为遇到了一些坑

在安装puppeteer包时,由于其依赖了chromium,因此包的体积很大,下载过程较慢。可以通过下面的命令修改包的源地址,再安装时就会快很多

也可以在用户文件夹下找到​<code>​.npmrc​</code>​文件,添加​<code>​uppeteer_download_host=https://npm.taobao.org/mirrors​</code>​,然后再执行​<code>​npm install​</code>​

上述方法的问题是,每次新建项目时都要安装下puppeteer,很占硬盘空间。解决方法是从chromium官网先下载一个安装包,解压后把它放到一个目录下,然后设置executablePath选项,指向chromium

下面是一个简单示例

在服务器端安装有些麻烦,官方给出了安装时的注意注意事项,​​移步至此​​。我用的服务器是Ubuntu,下面是安装步骤

首先要安装下面这些依赖包

然后配置args选项为黑盒模式

完成上面的操作就可以正常启动puppeteer了

​​官方文档​​

从零开始开发一个Node交互式命令行应用

爬虫利器 Puppeteer 实战

本来是爬豆瓣图书练手的,无奈爬了一万本IP被封了,好在过了一天又解封了。puppeteer是支持设置代理的,通过配置​<code>​args: ['--proxy-server=http://127.0.0.1:3000']​</code>​,可以以代理身份发送请求,我试了下免费的代理都很慢,不过既然是为了玩,慢也无所谓了。