利用Python编写网络爬虫下载文章

2021-11-08 06:04:40

今天来讲如何利用python爬虫下载文章，拿韩寒的博客为例来一步一步进行详细探讨。。。

韩寒的博客地址是：

可以看出左边是文章列表，而且不止一页，我们先从最简单的开始，先对一篇文章进行下载，再研究对一页所有的文

章进行下载，最后再研究对所有的文章下载。

第一步：对一篇文章下载

我们打开韩寒的博客，然后查看源码，可以看出每一篇文章的列表源码为：

<span class="atc_title"><a title="东望洋" target="_blank"

href="">东望洋</a></span>

我们主要是想提取出中间绿色部分的url，然后找到这篇文章的正文进行分析，然后提取进行下载。首先，假

设已经得到这个字符串，然后研究如何提取这个url，观察发现，对于所有的这类字符串，都有一个共同点，那

就是都含有子串‘<a title=‘，‘href=‘和‘.html‘，那么我们可以用最笨的方式---查找子串进行定界。

在python中有一个方法叫做find()，是用来查找子串的，返回子串出现的位置，那么，可以用如下代码来提

取url，并读取文件和下载文件。

第二，三步：下载所有的文章

在这一步中，我们要提取第一页所有的文章的url和标题，不再采用上面第一步的find()函数，毕竟这个函数

缺乏灵活性，那么采用正则表达式最好。

首先采集数据，观察发现，所有文章的url都符合

这一规则，所以我们可以设置正则表达式

r‘<a title=".+" target="_blank" href="(

这样就容易了，下面是爬取韩寒所有文章，并在本地保存为.html文件。

代码：

由于我把文章的标题用一个数字来命名，似乎不是很完美，还有两个问题没有解决，怎么提取文章的标题？，这是涉

及到中文提取，怎么把文章的内容提取出来保存为txt格式的文件？

如果能解决上面的两个问题，那么才算是真正地用网络爬虫技术实现了对韩寒博客的下载。

（1）提取文章的标题

为了方便操作，我们用beautifulsoup来分析网页，对html文本我们提取title之间的内容为

对这个强制转化为字符串，然后进行切片操作，大致取string[7 : -28]，得到了文章的标题。

但是有些标题直接的内容还需要处理，比如&lt;&lt;one is all&gt;&gt;，本来应该解释为《one is all》

还有比如中央电视台很*很**，这里的**在文件中不能作为名称字符。

提取正文部分后续再处理。。。

利用Python编写网络爬虫下载文章

继续阅读

HTTP学习笔记（7）—— 确保WEB安全的HTTPS

图解HTTP之确保Web安全的HTTPS（七）

【图解HTTP】——确保Web安全的HTTPSHTTPS小结

图解HTTP读书笔记（四）

图解HTTP读书笔记（一）

理解cookie和session的作用、联系与区别

HTTP-cookie与session简介

http/https--Cookie与Sessionhttp/https–Cookie与Sessioncookie与session的区别：

Android的前后端交互框架搭建（okhhtp+springboot+mysql完整版）

Debug时检测到Loaderlock的解决办法

OS --written test1

一份整理的还不错的DOS Batch快速指南

web OS —— goowy.com

Python 搭建一个简易QQ机器人

浅谈使用Fiddler工具进行弱网测试

配置网页内容的访问3案例3：配置网页内容访问