【Python实例二】BeautifulSoup爬虫简单实践

前言

前面安装了BeautifulSoup库，现在就来实现一下吧。

一、Urllib库的使用

二、BeautifulSoup的使用

三、一个示例

------------------------------------------------------------------------------------------------------------

正文

一、Urllib库的使用

看了一些简单爬虫的资料，都用到了Urllib库，想必这也是与web爬取数据的基础，因此先去看了看Urllib库的相关内容。

按我自己的理解，爬取网页的内容其实就是先把页面的信息先通过Urllib库抓取到本地，然后再通过BeautifulSoup库来精细划分抓取得到的页面内容数据。

使用Urllib库的最基本方法其实就三行代码（如下）：

# -*- coding: utf-8 -*-
import urllib

res = urllib.urlopen("http://www.baidu.com")
print res.read()

具体解释：

urllib库一般安装完Python后就自带在其安装包里面了，所以直接使用"import urllib"语句就能直接使用了；
urllib.urlopen(url[, data[, proxies]]) :创建一个表示远程url的类文件对象，然后像本地文件一样操作这个类文件对象来获取远程数据。

（参数url表示远程数据的路径，一般是网址；参数data表示以post方式提交到url的数据）

urlopen()返回一个类文件对象（此处用res来获取该对象），它提供了如下方法：read() , readline() , readlines() , fileno() , close()
res.read()返回获取到的网页内容

最后输出的内容如下所示（相当于查看网页源码看到的内容）

【Python实例二】BeautifulSoup爬虫简单实践

二、BeautifulSoup的使用

在用Urllib库从网页上得到了网页数据后，就要开始使用BeautifulSoup了。

1. 首先创构造一个BeautifulSoup对象

下面有一些最简单的例子：

（1）通过字符串创建BeautifulSoup对象

# -*- coding: utf-8 -*-
from bs4 import BeautifulSoup
helloworld = '<p>Hello World</p>'
soup_string = BeautifulSoup(helloworld, "html.parser")
print soup_string

结果：

【Python实例二】BeautifulSoup爬虫简单实践

（2）通过类文件对象创建BeautifulSoup对象

# -*- coding: utf-8 -*-
import urllib
from bs4 import BeautifulSoup

url = "http://www.baidu.com"
page = urllib.urlopen(url)
soup = BeautifulSoup(page，"html.parser")
print soup

因为前面说的Urllib库用urlopen()返回的就是一个类文件对象，所以这里的结果和之前Urllib中对象调用read()得到的结果是一样的。

（3）通过本地文件对象创建BeautifulSoup对象

# -*- coding: utf-8 -*-
import urllib
from bs4 import BeautifulSoup

with open('index.html','r') as foo_file :
    soup_foo = BeautifulSoup(foo_file, "html.parser")
print soup_foo

【注意】以上的三种方法创建BeautifulSoup对象使用的语句是：BeautifulSoup(urllib库对象名, "html.parser")，其中标红的部分 "html.parser"是我时间之后发现要加的，很多教程里面是直接使用 BeautifulSoup(urllib库对象名)来创建，但是我运行的时候会有一个warning：

【Python实例二】BeautifulSoup爬虫简单实践

于是就按照提示上说的，加上了"html.parser"，运行之后果然正常了，所以如果你也遇到一样的问题，就还是加上它吧:)

2.使用BeautifulSoup库的 find()和findAll()函数

在构造好BeautifulSoup对象后，借助find()和findAll()这两个函数，可以通过标签的不同属性轻松地把繁多的html内容过滤为你所想要的。

这两个函数的使用很灵活，可以：通过tag的id属性搜索标签、通过tag的class属性搜索标签、通过字典的形式搜索标签内容返回的为一个列表、通过正则表达式匹配搜索等等

基本使用格式：

pid = soup.find(attrs={"id":"aa"})

pid = soup.findAll('a',{'class':'sister'})

三. 一个示例

这个示例是我在查找资料的时候看到的，按照代码运行得出来，理解起来也简单，因此就借鉴一下

（原文地址：http://www.cnblogs.com/hearzeus/p/5151449.html）

下面是代码和效果：

# -*- coding: utf-8 -*-
import urllib
from bs4 import BeautifulSoup

res = urllib.urlopen("http://www.douban.com/tag/%E5%B0%8F%E8%AF%B4/?focus=book")
soup = BeautifulSoup(res,"html.parser")
book_div = soup.find(attrs={"id":"book"})
book_a = book_div.findAll(attrs={"class":"title"})
for book in book_a:
    print book.string

【Python实例二】BeautifulSoup爬虫简单实践

【Python实例二】BeautifulSoup爬虫简单实践

继续阅读

无法解析的外部符号 wmain，该符号在函数 "void cdecl mainCRTStartupHelper(struct HINSTANCE *,unsigned short con......

TestLink导出用例转换工具(XML2Excel)

YAML简介和PyYAML安全操作YAML支持的类型YAML的优点：yaml的基本语法python操作

Small tricks

libsvm for python 安装

学习软件测试基础测试第七天

Zeppelin 配置访问 REST APIApache Zeppelin Configuration REST API

【Torch】最简洁logging使用指南

27. Remove Element(列表)题目代码

sort()函数到底是怎样进行数字排序的

Cloud Studio初体验

使用 ctypes 进行 Python 和 C 的混合编程

【python】【数据处理】画多维数据分布图

【python】netconf协议对接管理设备

「Python 网络自动化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 网络设备

在python中创建excel并写入