爬虫学习笔记 -- 实战某电影网（lxml库版）

作者：之乎者也吧呀 2022-09-14 15:06:00

0x01 安装lxml库文件

pip3 install lxml

0x02 初始化字符串

1、通过HTML类初始化字符串

from lxml import etree
import requests
url = "https://www.dandanzan10.top/dianying/index.html"
heads = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36',
}
r = requests.get(url, headers=heads)
str = r.text
html=etree.HTML(str)
print(html)
运行结果：<Element html at 0x17bf61e9d80>

0x03 获取xpath路径

1、右击要获取的字符串，选择审查元素

2、右击要获取字符串这行，选择复制，选择复制Xpath

/html/body/div[2]/div/div[2]/ul/li[1]/h2/a

0x04 利用Xpath获取电影名

from lxml import etree
import requests


url = "https://www.dandanzan10.top/dianying/index.html"
heads = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36',
}
r = requests.get(url, headers=heads)
str = r.text
html=etree.HTML(str)
res=html.xpath('/html/body/div[2]/div/div[2]/ul/li[1]/h2/a/text()')
print(res)
运行结果：['奇门暗刃']

1、text()获取节点内容

2、"ul/li[1]"，这里只是获取了第一个电影名字

3、因为有多个li节点，所以将下标1去了就可以获取所有节点内容

res=html.xpath('/html/body/div[2]/div/div[2]/ul/li/h2/a/text()')

0x05 声明

仅供安全研究与学习之用，若将工具做其他用途，由使用者承担全部法律及连带责任，作者不承担任何法律及连带责任。

欢迎关注编程者吧

爬虫学习笔记 -- 实战某电影网（lxml库版）

继续阅读

SVM学习笔记（一）

阅读笔记--java编程思想第四版 --接口嵌套

法理学学习笔记Day4——法律规则重点知识点法的微观结构★★★★★（考察40次）（二级考点）法律规则（二级考点）1.法律

最大子段和问题（分治法和动态规划）

#人教五上预习#知识点总结#学习打卡ing#学习笔记#假期学习

持续更新调研报告写作资料，希望各位多多批评指正#写材料#学习资料分享#学习笔记#每天学习一点点

android学习笔记3：存储数据存储 Key-Value 集数据保存到文件

安卓学习笔记（九）网络编程网络编程

安卓学习笔记（一） Activity篇

django短信验证码的后端实现

天池龙珠计划Python训练营-task2笔记列表元组字符串字典集合序列

2022秋招cpp相关面试总结（长期更新）1、内存对齐2、类的占用空间死锁elf优化bin文件c语言和c++中const区别sizeof原理malloc一块内存free怎么找到头尾

2022秋招面试总结（cpp+java+测开）百度测开一面字节后端一面虾皮后端一面虾皮后端二面

nagios服务端搭建

Apache 虚拟主机搭建过程

判断浏览器类型与版本以及ios安卓判别