天天看点

爬虫基础入门(一)

爬虫基础入门(一)

本博文介绍最基本的爬虫,先讲解爬虫的概念,具体实现的步骤以及举一个最简单的Python实现的爬虫例子。

何为网络爬虫

我的理解,网络爬虫就是编程实现,自动化爬取网页中的信息。网络爬虫,是网络数据采集的一部分,也是大多数人感兴趣的一部分。

实现网络爬虫,最常用的方法是写一个自动化程序向服务器请求数据(通常是用HTML表单或其他网页文件),然后对数据进行解析,提取需要的信息。

网络爬虫的目的,进行数据分析或者分类。

最简单的爬虫例子

本节Python实现一个最简单的爬虫例子。当然,此处仅用于说明爬虫实战时的步骤和思想,本例还是相当简单的。

写出一个较好的爬虫,需要一点前端知识,毕竟网页是使用前端语言写的;同时,现在而言,还没有万能的爬虫程序,因此,一般情况下,爬虫需要根据特定的网页进行编写,以及不断调试。

简单的爬虫例子:

需要实现的功能:爬去http://example.com/中间部分的字符并保存待使用。

Python中使用两种方法实现,1是使用字符串自带的方法进行匹配;2是使用正则匹配。

# -*- coding:utf-8 -*-

import urllib2
import re

# 第一步:获取网页
website = urllib2.urlopen(r"http://www.example.com/")

# 第二步:读取网页源代码
page = website.read().decode('utf-8') #使用utf-8解码,也可能是gbk

#print(page)

# 第三步:匹配相关信息
# find - 方法返回的是该字符的位置
start_p = page.find('<p>') +   # <p>占了三个字符
end_p = page.find('</p>')

msg = re.findall("<p>(.*?)</p>",page,re.S) # .*?属于贪婪匹配,即匹配所有能匹配的
# 括号则表示要抽取的内容,re.S表示将\n也匹配

#print(page[start_p:end_p])
print(msg[])

# 保存爬取的信息
fp = open('msg.txt','w')
fp.write(msg[])
#print(fp.read())
fp.close()
           

运行结果:

This domain is established to be used for illustrative examples in documents. You may use this
    domain in examples without prior coordination or asking for permission.
           

爬取成功,并保存为.txt文件。

总结

其实,爬虫步骤和基本思想并不难,难点在于对实际网页的分析,要写高级爬虫还是需要很多网络与前端的知识的,本人还在慢慢学习,进行多尝试,后续也会再分享自己爬虫的一些感受。