爬虫基础入门（一）

2023-07-29 16:59:14

爬虫基础入门（一）

本博文介绍最基本的爬虫，先讲解爬虫的概念，具体实现的步骤以及举一个最简单的Python实现的爬虫例子。

何为网络爬虫

我的理解，网络爬虫就是编程实现，自动化爬取网页中的信息。网络爬虫，是网络数据采集的一部分，也是大多数人感兴趣的一部分。

实现网络爬虫，最常用的方法是写一个自动化程序向服务器请求数据（通常是用HTML表单或其他网页文件），然后对数据进行解析，提取需要的信息。

网络爬虫的目的，进行数据分析或者分类。

最简单的爬虫例子

本节Python实现一个最简单的爬虫例子。当然，此处仅用于说明爬虫实战时的步骤和思想，本例还是相当简单的。

写出一个较好的爬虫，需要一点前端知识，毕竟网页是使用前端语言写的；同时，现在而言，还没有万能的爬虫程序，因此，一般情况下，爬虫需要根据特定的网页进行编写，以及不断调试。

简单的爬虫例子：

需要实现的功能：爬去http://example.com/中间部分的字符并保存待使用。

Python中使用两种方法实现，1是使用字符串自带的方法进行匹配；2是使用正则匹配。

# -*- coding:utf-8 -*-

import urllib2
import re

# 第一步：获取网页
website = urllib2.urlopen(r"http://www.example.com/")

# 第二步：读取网页源代码
page = website.read().decode('utf-8') #使用utf-8解码，也可能是gbk

#print(page)

# 第三步：匹配相关信息
# find - 方法返回的是该字符的位置
start_p = page.find('<p>') +   # <p>占了三个字符
end_p = page.find('</p>')

msg = re.findall("<p>(.*?)</p>",page,re.S) # .*?属于贪婪匹配，即匹配所有能匹配的
# 括号则表示要抽取的内容，re.S表示将\n也匹配

#print(page[start_p:end_p])
print(msg[])

# 保存爬取的信息
fp = open('msg.txt','w')
fp.write(msg[])
#print(fp.read())
fp.close()

运行结果：

This domain is established to be used for illustrative examples in documents. You may use this
    domain in examples without prior coordination or asking for permission.

爬取成功，并保存为.txt文件。

总结

其实，爬虫步骤和基本思想并不难，难点在于对实际网页的分析，要写高级爬虫还是需要很多网络与前端的知识的，本人还在慢慢学习，进行多尝试，后续也会再分享自己爬虫的一些感受。

爬虫基础入门（一）