python爬虫requests+lxml的使用（入门级）

2023-03-09 14:34:48

爬虫流程

1.用requests库的get方法发起请求

2.获取网页源码

3.用lxml中的xpath语法进行解析

4.对拿到的数据进行遍历

5.保存为txt文件

A.获取网页源码

import requests
from lxml import etree
url = 'http://qiushi.92game.net/'
headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.12; rv:70.0) Gecko/20100101 Firefox/70.0'}
response = requests.get(url,headers=headers)
print(response.text)

python爬虫requests+lxml的使用（入门级）

B.将内容遍历打印出来

import requests
from lxml import etree
url = 'http://www.lovehhy.net/Joke/Detail/QSBK/3'
headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.12; rv:70.0) Gecko/20100101 Firefox/70.0'}
response = requests.get(url,headers=headers)
#print(response.text)
html = etree.HTML(response.text)
a_list = html.xpath('//div[@id="endtext"]/text()')
print(a_list)
for i in a_list:
    print(i)

python爬虫requests+lxml的使用（入门级）

C.将内容进行保存为.txt文件

整体代码

import requests
from lxml import etree
url = 'http://www.lovehhy.net/Joke/Detail/QSBK/3'
headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.12; rv:70.0) Gecko/20100101 Firefox/70.0'}
response = requests.get(url,headers=headers)
#print(response.text)
html = etree.HTML(response.text)
a_list = html.xpath('//div[@id="endtext"]/text()')
#print(a_list)
with open('qsbk.txt','w',encoding='utf-8') as fp:
    for i in zip(a_list):
        a = i
        print(a)

        fp.write(str(a)+'\n')

最后的效果

python爬虫requests+lxml的使用（入门级）

python爬虫requests+lxml的使用（入门级）

继续阅读

爬虫（三）lxml+requests（豆瓣Top250电影）

爬虫学习之04-request模块获取糗事百科一张热图

python3下用selenium库和chrome的headless模式实现网页抓取（注释中有用phantomJS的小段代码）

【Python爬虫案例学习19】多进程爬取某图片网站

python 爬取天堂图片网脚本

python爬虫实战之爬取成语大全

【爬取百度首页】-将整个html源码保存-headers使用一、网页分析二、代码实现与步骤三、结果分析

爬取百度贴吧

爬取猫眼电影--静态网页反爬与多线程/多进程爬取网页解析爬取代码多线程与多进程

深入浅出Mybatis源码系列（一）---Mybatis入门

开篇叙事我为什么会在这儿

Python进阶之路 6.2.1 dict函数

requests模块进行人人网模拟登陆

2023爬虫学习笔记 -- 多线程操作

Python爬虫学习（1）

Boss直聘Python爬虫实战