天天看点

Python爬虫学习(1)

为了完成毕业设计,从Python零基础开始学习爬虫技术。

1.Requests库

功能:用于网页请求

网页请求方式:GET方法(常用)与POST方法

使用GET方式抓取网页源码数据:

import requests        				#导入requests包
url = 'http://www.baidu.com/'		#将目标网页赋值给一个变量
strhtml = requests.get(url)        	#调用requests库的Get方法获取网页数据,并将其赋值给变量
print(strhtml.text)					#打印网页的文本数据
           

2.BeautifulSoup库

功能:从网页中抓取数据

常见方法:BeautifulSoup()、soup.select()、soup.prettify()等

简单示例:

import requests        							#导入requests包
from bs4 import    BeautifulSoup				#导入bs4中的BeautifulSoup包
url='http://www.baidu.com/'						
strhtml=requests.get(url)				
soup=BeautifulSoup(strhtml.text,'lxml')			#指定lxml解析器进行解析
print(soup)										#打印结果
           

2.1 BeautifulSoup()——解析文档

Beautiful Soup 选择最合适的解析器来解析文档,解析后便将复杂的 HTML 文档转换成树形结构,并且每个节点都是 Python 对象。

此处指定 lxml 解析器进行解析,将解析后的文档存储到新建的变量 soup 中。