使用node爬取小说内容并保存到本地

2023-08-07 07:16:22

1. 先下载node

2. 创建一个以 .js 结尾的文件

3. 创建一个存放小说的文件夹名称自定义

4. 下载 cheerio 和 request 包

npm i cheerio

npm i request

5. 在文件内导入需要用到的模块

// npm下载模块后，引入cheerio模块
let cheerio = require('cheerio');
// 引入fs文件模块，帮助爬取的页面写入文件里面
let fs = require('fs');
// 引入请求模块
let request = require('request');

6. 获取每一章的链接

这里可以在页面按F12打开类似于这样的界面

使用node爬取小说内容并保存到本地

// cheerio模块操作本地的现有的HTML页面的DOM节点，进而通过节点进行筛查获取信息
request("http://book.zongheng.com/showchapter/1215587.html",
    (err, res, body) => {
        if (err) return false; //如果请求报错就退出

        // 类似于jquery选择器返回$，
        // Cheerio的选择器实现与jQuery几乎相同，因此API非常相似。
        let $ = cheerio.load(body);
        // 通过$这个选择器，选择我们爬取内容所在的节点
        // return false相当于break ; return true相当于continue
        // 根据上图选择对应的节点获取每一章的链接
        $(".col-4 a").each(function (index) {
             if (index > 100) {
                 return false; //break,当小说章节达到100章则退出循环
             }
             // 这里的this等于$获取的a节点,同prop方法捕获a节点中的href属性内容
             let strurl = $(this).prop("href");
             // 判断页面链接是否存在
             if (strurl) {
                 // 调用获取小说内容的函数
                 getNoveltext(strurl, index);
             }

        })
    }
)

7. 获取小说内容

跟第6步一样的先按f12

使用node爬取小说内容并保存到本地

获取对应节点数据

// 获取小说内容的函数
function getNoveltext(url, index) {
    // 通过传入每一章节小说内容的链接，获取小说的内容
    request(url, (err, res, body) => {
        if (err) return false; //如果请求报错就退出
        let $ = cheerio.load(body); //获取Cheerio的选择器
        // 获取每一章的标题
        let strtext = $('.title .title_txtbox').text() + '\n\r'  // 进行换行
        // 获取文字内容
        $(".content p").each((index, el) => {
            strtext += $(el).text() + '\r'  
        })

        // 通过fs文件模块将小说内容异步写入text文档，这里必须新建fiction的文件夹
        fs.writeFileSync(`./fiction/page${index + 1}.txt`, strtext);
    })
}

完整内容

// npm下载模块后，引入cheerio模块
let cheerio = require('cheerio');
// 引入fs文件模块，帮助爬取的页面写入文件里面
let fs = require('fs');
// 引入请求模块
let request = require('request');

// cheerio模块操作本地的现有的HTML页面的DOM节点，进而通过节点进行筛查获取信息
request("http://book.zongheng.com/showchapter/1215587.html",
    (err, res, body) => {
        if (err) return false; //如果请求报错就退出

        // 类似于jquery选择器返回$，
        // Cheerio的选择器实现与jQuery几乎相同，因此API非常相似。
        let $ = cheerio.load(body);
        // 通过$这个选择器，选择我们爬取内容所在的节点
        // return false相当于break ; return true相当于continue
        // 根据上图选择对应的节点获取每一章的链接
        $(".col-4 a").each(function (index) {
             if (index > 100) {
                 return false; //break,当小说章节达到100章则退出循环
             }
             // 这里的this等于$获取的a节点,同prop方法捕获a节点中的href属性内容
             let strurl = $(this).prop("href");
             // 判断页面链接是否存在
             if (strurl) {
                 // 调用获取小说内容的函数
                 getNoveltext(strurl, index);
             }

        })
    }
)

// 获取小说内容的函数
function getNoveltext(url, index) {
    // 通过传入每一章节小说内容的链接，获取小说的内容
    request(url, (err, res, body) => {
        if (err) return false; //如果请求报错就退出
        let $ = cheerio.load(body); //获取Cheerio的选择器
        // 获取每一章的标题
        let strtext = $('.title .title_txtbox').text() + '\n\r'  // 进行换行
        // 获取文字内容
        $(".content p").each((index, el) => {
            strtext += $(el).text() + '\r'  
        })

        // 通过fs文件模块将小说内容异步写入text文档，这里必须新建fiction的文件夹
        fs.writeFileSync(`./fiction/page${index + 1}.txt`, strtext);
    })
}

完整目录结构

使用node爬取小说内容并保存到本地

在当前文件夹下运行 node ./1.js

就可以在fiction文件夹下得到所有章节的text文件

使用node爬取小说内容并保存到本地

使用node爬取小说内容并保存到本地

1. 先下载node

2. 创建一个以 .js 结尾的文件

3. 创建一个存放小说的文件夹名称自定义

4. 下载 cheerio 和 request 包

5. 在文件内导入需要用到的模块

6. 获取每一章的链接

7. 获取小说内容

继续阅读

gulp 重命名 vue-cli3的发布文件

可悲的老周

2009年热门小说推荐列表绝对好看

小说三要素何为小说三要素使用技巧

在线学习Node.js——Day5之手搓Promise

同源与跨域、JSONP(函数封装)、CORS同源政策跨域问题

linux（rh6.3）下nodejs(14.17)环境安装出错

电商难做？低代码开发平台为企业转型升级保驾护航

vue中父组件调用子组件的方法

Node.js介绍一、Node.js简介二、Node.js的结构分层三、支撑Node.js运行的基础构建包括的部分四、Node.js的特点

Vue - vue create、vue ui、vue init三种方式创建Vue项目

Vue - 安装Node.js（配置环境变量、配置NPM下载存放目录、NPM设置镜像仓库）

Jeecg-Boot 2.4.0版部署后无法加载验证码问题Provisional headers are shown Failed to load response data

企业最佳Node.js 应用案例分享

express 搭建后台构建工程目录结构