Python爬虫学习（1）

2023-08-07 18:47:19

为了完成毕业设计，从Python零基础开始学习爬虫技术。

1.Requests库

功能：用于网页请求

网页请求方式：GET方法（常用）与POST方法

使用GET方式抓取网页源码数据：

import requests        				#导入requests包
url = 'http://www.baidu.com/'		#将目标网页赋值给一个变量
strhtml = requests.get(url)        	#调用requests库的Get方法获取网页数据，并将其赋值给变量
print(strhtml.text)					#打印网页的文本数据

2.BeautifulSoup库

功能：从网页中抓取数据

常见方法：BeautifulSoup()、soup.select()、soup.prettify()等

简单示例：

import requests        							#导入requests包
from bs4 import    BeautifulSoup				#导入bs4中的BeautifulSoup包
url='http://www.baidu.com/'						
strhtml=requests.get(url)				
soup=BeautifulSoup(strhtml.text,'lxml')			#指定lxml解析器进行解析
print(soup)										#打印结果

2.1 BeautifulSoup()——解析文档

Beautiful Soup 选择最合适的解析器来解析文档，解析后便将复杂的 HTML 文档转换成树形结构，并且每个节点都是 Python 对象。

此处指定 lxml 解析器进行解析，将解析后的文档存储到新建的变量 soup 中。

Python爬虫学习（1）

1.Requests库

2.BeautifulSoup库

2.1 BeautifulSoup()——解析文档

继续阅读

TestLink导出用例转换工具(XML2Excel)

JVM内存管理、直接内存和垃圾回收

YAML简介和PyYAML安全操作YAML支持的类型YAML的优点：yaml的基本语法python操作

Small tricks

libsvm for python 安装

学习软件测试基础测试第七天

Zeppelin 配置访问 REST APIApache Zeppelin Configuration REST API

【Torch】最简洁logging使用指南

27. Remove Element(列表)题目代码

sort()函数到底是怎样进行数字排序的

Cloud Studio初体验

使用 ctypes 进行 Python 和 C 的混合编程

【python】【数据处理】画多维数据分布图

【python】netconf协议对接管理设备

「Python 网络自动化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 网络设备

在python中创建excel并写入